 

共 60 篇文章

标签：多模态

全能AI助手AMC更新：支持Markdown转PDF与富文本粘贴

开源AI工具AMC发布重要更新，深度集成Gemini生态。新版本支持将带网络图片的Markdown转换为PDF，并实现网页富文本与本地文件的直接粘贴。该工具具备多模态交互、联网搜索、代码执行及长文档分析能力，结合Gemini的视觉与文字双重...

Toy2026-01-23前沿阅读(3)去评论

智谱 AI (Z.ai) 新模型 GLM-OCR 现身 GitHub，多模态能力或再升级

近日，Z.ai（智谱 AI）团队在 GitHub 平台悄然上线了名为 GLM-OCR 的新模型仓库。作为 GLM 系列的延伸，该模型专注于光学字符识别（OCR）与文档理解技术，旨在解决复杂视觉场景下的文字提取与解析难题。这一动作不仅丰富了智...

Toy2026-01-22前沿阅读(14)去评论

用户实测：让 ChatGPT 生成图片分析用户的交互态度

V2EX 用户分享了一项有趣的实验，向 ChatGPT 发送指令，要求其基于历史对话生成图片，直观呈现用户对待 AI 的态度且不加粉饰。这一互动不仅展示了 ChatGPT 在多模态生成与长程记忆理解方面的能力，也反映了当前大模型在个性化交互...

Toy2026-01-21前沿阅读(15)去评论

YC新锐Channel3融资600万美元，构建AI代理时代的商业基础设施

Y Combinator孵化项目Channel3致力于构建全球互联网产品数据库，旨在解决AI代理商业化中的数据混乱难题。公司利用多模态AI技术理解产品页面，已索引超1亿产品，服务1500多名开发者。Channel3目标成为AI交易的基础设施...

Toy2026-01-20前沿阅读(11)去评论

开源 AI 助手 AMC 更新：支持 Gemini 原始思维链与生成干预

全能 AI 聊天助手 AMC（All-Model-Chat）发布重大功能更新。新版本支持完整呈现 Gemini 的原始思维链，为开发者提供了观测模型逻辑推导过程的窗口，增强了可解释性。同时，新增的半篡改续写功能允许用户在 AI 生成过程中进...

Toy2026-01-20前沿阅读(22)去评论

格灵深瞳推「丹青」亿级数据集，刷新中文多模态预训练基准

格灵深瞳正式发布名为「丹青」的大规模中文视觉语言预训练数据集。该数据集包含1亿组精选图文配对，基于2024至2025年网络数据构建，具备高时效性与高质量特性。实验显示，基于该数据集训练的模型在零样本分类、跨模态检索及LMM评测中表现显著优于...

Toy2026-01-19前沿阅读(21)去评论

Gemini看图+Suno V5写歌：AI音乐生成的创意与槽点

本文记录了利用Gemini分析图像并生成提示词，再由Suno V5创作音乐的第三期实验。作者展示了多首风格各异的作品，从怀旧青春到悬疑特工，并深入点评了Suno V5在编排上的惊艳表现及混音质量的不稳定性。特别是关于“华为版”与“苹果版”的...

Toy2026-01-18前沿阅读(38)去评论

黑马AI大模型三期出炉：涵盖RAG、Agent与多模态全栈教程

本次资源公开了“黑马AI大模型第三期”的完整课程体系，内容涵盖从Python基础到高级大模型开发的全方位知识。课程分为六个阶段，重点讲解大模型应用工具、Prompt工程、Agent开发、LangChain框架以及多模态技术。此外，包含金融、...

Toy2026-01-17前沿阅读(37)去评论

谷歌发布TranslateGemma系列，小参数模型性能越级，手机端可流畅运行

谷歌基于Gemma 3架构推出TranslateGemma开源翻译模型系列，包含4B、12B和27B三种参数规模，支持55种语言及多模态图像翻译。测试显示，TranslateGemma 12B性能超越参数量翻倍的27B基线模型，而4B小模型...

Toy2026-01-16前沿阅读(43)去评论

Gemini 多图识别逻辑现反转 Bug：最后上传被视为第一张

近期测试发现，Google Gemini 在处理多图上传时存在逻辑反转问题。当用户上传多张图片时，Gemini 会将最后上传的图片视为第一张，与用户直觉相悖。相比之下，Grok、豆包和 Claude 均能正确识别图片顺序。值得注意的是，如果...

Toy2026-01-12前沿阅读(33)去评论

AI海报生成新技巧：Gemini多模态模型简化提示词

Gemini作为多模态AI模型，可直接通过垫图生成细节完善的海报，避免复杂的提示词工程。GitHub工具’banana-prompt-quicker’支持一键插入提示词和参考图，提升效率。实用技巧：添加’...

Toy2026-01-09前沿阅读(38)去评论

阿里发布Qwen3-VL多模态模型，革新检索技术

2026年1月8日，阿里Qwen团队推出Qwen3-VL-Embedding和Qwen3-VL-Reranker，首批基于Qwen3-VL的开源多模态嵌入与重排序模型。这些模型统一处理文本、图片、截图、视频及混合模态输入，映射到高维语义空间...

Toy2026-01-08前沿阅读(40)去评论

字节跳动急招AI大模型工程师，聚焦Agent与多模态技术

字节跳动火山AI团队急招大模型应用算法工程师和后端开发工程师，职位要求深度掌握大模型核心技术，包括SFT、RLHF、RAG、Agent等，熟悉LangGraph等框架。招聘信息反映行业对AI大模型人才的高需求，强调多模态和智能代理应用趋势，...

Toy2026-01-08前沿阅读(35)去评论

Unity AI模型实测：疑似Gemini套壳，代码表现差

厦门实验室发布的Unity多模态AI模型声称性能超Gemini，实测显示其思维链有Gemini色彩，多模态测试表现稳定（如识别logan），但代码测试失败（如宝塔报错）。结论认为该模型可能是Gemini蒸馏产物，知识库保留但其他性能缺失，存...

Toy2026-01-08前沿阅读(45)去评论

Gemini模型论文阅读实测：2.5Pro领先，3Pro解析待优化

作者通过实际测试对比了Gemini 2.5 Flash、2.5 Pro、3 Flash和3 Pro在阅读机械工程论文时的表现。结果显示，2.5 Pro在解释详略程度上最满意，输出内容全面且无显著错误；2.5 Flash虽输出长但存在幻觉；3...

Toy2026-01-08前沿阅读(34)去评论

memU：AI记忆框架开源，支持多模态与双检索

memU是一款创新的AI记忆框架基础设施，采用独特三层架构，通过文件系统高效存储记忆数据。该项目轻量级设计，高度可拓展，原生支持多模态数据处理，并融合RAG与非嵌入双检索模式，提升AI系统性能。开源于GitHub，作者积极邀请开发者社区参与...

Toy2026-01-07前沿阅读(37)去评论

AI文献管家：Zotero-AI-Butler重构科研阅读

Zotero-AI-Butler是一款开源AI插件，自动扫描并精读PDF论文，生成Markdown笔记。支持多模态直读数学公式和图表，集成侧边栏实时交互，一键生成学术海报。兼容OpenAI、Claude、Gemini等模型，隐私安全，成本低...

Toy2026-01-07前沿阅读(50)去评论

AI时代：人类稀缺特质与Agent元年总结

本周深度总结2025年Agent元年的三大要点：技术底层从对话到推理的突破，交互模式从人找工具到工具找人的变革，商业落地从Demo到生产力的规模化。讨论AI时代人类稀缺特质回归本质，梳理业界动态如Meta收购Manus、GLM-4.7发布、...

Toy2026-01-05前沿阅读(40)去评论

AI大模型全栈工程师课程资源第9期：完整课件与实战工具包

本文提供了AI大模型全栈工程师第9期的完整课件资源，包括视频课程和配套工具包，覆盖大模型应用开发基础、Prompt Engineering、模型微调（上下）、多模态大模型（上下）、神经网络和Transformer详解、LangChain、R...

Toy2026-01-05前沿阅读(48)去评论

大模型面试100问07：特殊架构篇-Toy's Tech Notes

大模型面试100问07：特殊架构篇

TL;DR 稠密模型的参数规模竞赛已经到头，MoE用稀疏激活让470亿参数的模型跑出130亿的速度；多模态让LLM能看图说话，GPT-4V的视觉编码器是关键；Diffusion模型让AI能画画，DDPM和DDIM是两条技术路线。本文从6个高...

Toy2026-01-04AI 阅读(64)去评论

1
2
3
下一页
共 3 页

前沿哨所

突破极限：利用瞬态场神经渲染，可视化光传播的飞行视角

多伦多大学与斯坦福大学团队在ECCV 2024发表研究“Flying with Photons”，通过超高速成像系统捕捉皮秒级光传播数据。他们提出基于“瞬态场”的神经渲染框架，能合成光在场景中传播的新视角视频，精确计算光速延迟，逼真还原散射、折射等光学现象。该技术为研究光传输物理及视觉特效提供了全新工具。

原文链接：Hacker News

58分钟前
反代工具故障意外泄露Claude Opus 4.5，算力瓶颈制约高端AI

近日，Antigravity Tools反代工具频繁出现HTTP 429错误，日志显示服务器资源耗尽。然而，错误信息中意外包含了模型名称“claude-opus-4-5-thinking”，这暗示Anthropic的下一代大模型可能已进入测试或短暂上线阶段。这一现象不仅证实了新模型的存在，也深刻暴露了当前高端AI模型在面对需求时面临的严峻算力短缺问题。

原文链接：Linux.do

58分钟前
企业级 AI 落地：除写代码外，AI 如何重塑研发效率？

随着 AI 技术深入企业，研发团队正全面拥抱 AI 工具。除了广泛引入 GitHub Copilot 和 Claude Code 辅助编码，企业更将其纳入 OKR 考核，探索 AI 在监控报警治理等运维场景的应用。这标志着企业 AI 应用正从单一代码编写向全链路研发流程延伸，挖掘更多效率提升的新场景。

原文链接：V2EX 分享发现

58分钟前
Radicle：基于Git的去中心化P2P代码协作平台

Radicle 是一个基于 Git 构建的开源、点对点代码协作堆栈。与 GitHub 等中心化平台不同，Radicle 无单一实体控制网络，代码库在对等节点间去中心化复制。它采用本地优先策略，支持离线工作，并利用公钥加密确保数据安全。用户拥有完全的数据主权，可自定义扩展协作流程，提供 CLI、Web 及桌面客户端，旨在构建抗审查、高韧性的代码协作环境。

原文链接：Hacker News

2小时前
基于 Gemini 的免费 AI PDF 阅读器 InsightPDF，助力论文高效阅读

InsightPDF 是一款基于 Google Gemini 模型开发的免费 AI PDF 阅读器。该工具专为需要阅读学术论文或长文档的用户设计，允许用户通过自然语言聊天与文档交互，精准定位并提取 PDF 中的关键内容。用户可选择使用自己的 API Key 或通过 Google 账号直接登录使用。项目已在 GitHub 开源，支持见解提取、内容总结和智能文档搜索，旨在利用大模型能力降低文献阅读门槛。

原文链接：Linux.do

2小时前
搜狗输入法更新AI语音：接入混元7B，但宣传功能缺席

搜狗输入法近期推送更新，引入了腾讯混元7B模型作为新后端。然而实测发现，应用界面未见明显变化，且宣传图重点展示的“快速更改人称”功能在实测中并未找到。对比豆包等竞品，虽然集成了新模型，但在具体体验上仍需打磨，被指存在货不对板的情况。

原文链接：Linux.do

2小时前

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

老品牌，更懂稳定的价值你的第一台云服务器，从 LocVPS 开始