 

Gemini 多图识别逻辑现反转 Bug：最后上传被视为第一张

2026-01-12 分类：前沿哨所阅读(3) 评论(0) 赞(0)

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

近期测试发现，Google Gemini 在处理多图上传时存在逻辑反转问题。当用户上传多张图片时，Gemini 会将最后上传的图片视为第一张，与用户直觉相悖。相比之下，Grok、豆包和 Claude 均能正确识别图片顺序。值得注意的是，如果在对话中涉及使用 Nano Banana，Gemini 反而能正确识别图 1 和图 2。该问题暴露了 Gemini 在多模态交互细节上的不足。

原文链接：V2EX 分享发现

赞(0)

未经允许不得转载：Toy's Tech Notes » Gemini 多图识别逻辑现反转 Bug：最后上传被视为第一张

分享到

评论抢沙发

前沿哨所

迪士尼工程师揭秘《疯狂动物城2》背后的硬核渲染技术

本文是迪士尼动画工程师对《疯狂动物城2》制作过程的技术复盘。文章详细阐述了影片在细节与规模上的渲染挑战，包括通过数万亿独立冰晶构建雪景、改进毛发光线几何相交算法，以及为“水管运输”场景定制的嵌套电介质解决方案。此外，团队与迪士尼研究院及Intel合作，将下一代路径引导系统（基于OpenPGL）应用于Hyperion渲染器，大幅提升了复杂场景的渲染效率，展现了硬件算力提升对CG制作流程的深远影响。

原文链接：Hacker News

25分钟前
DeepSeek mHC 复现：颠覆传统残差连接，重塑 Transformer 架构

自2016年以来，无论是GPT-5、Claude还是Gemini，所有主流Transformer模型均沿用单一残差连接设计 $x + F(x)$。本文深入探讨了DeepSeek提出的mHC架构，该设计大胆挑战了这一传统范式，通过拓宽残差连接路径，试图打破信息流的单一限制。文章详细复现了该架构，分析了其对深层网络梯度传播及稳定性的潜在影响，这可能是AI底层架构自问世以来最具颠覆性的变革之一。

原文链接：Hacker News

25分钟前
揭秘Claude Code之父的高效工作流，开发者如何复刻？

Claude Code之父Boris的高效工作流视频在开发者社区引发热议。其利用AI实现多线程并发工作的模式令许多从业者感到震撼，大家纷纷探讨是否存在开源方案可以复刻这一流程。这不仅是对个人提效工具的探索，更反映了软件工程领域向“AI原生”工作模式转型的趋势，如何利用AI工具重塑开发流程成为当前技术圈关注的焦点。

原文链接：Linux.do

25分钟前
开源AI提示词管理工具Prompt-Manager：支持Docker一键部署

开源社区推出了一款名为Prompt-Manager的本地AI艺术提示词管理工具。该项目代码与数据完全开源，支持Docker一键部署，方便用户在本地搭建专属的提示词库。工具不仅提供演示站点供用户体验，还定期更新数据集，涵盖各类优质AI绘画提示词。此外，项目特别设置了敏感内容显示功能，满足不同场景下的浏览需求。对于AI创作者而言，这是一款提升创作效率的实用工具。

原文链接：Linux.do

25分钟前
科研视角：Claude 与 Codex 的高效实战准则

本文分享了科研人员在使用 Claude 和 Codex 时的实战准则。作者强调需明确需求以精准选型，利用 Git 管理和目录隔离来限定 AI 生成范围，并坚持最简原则以降低心智负担。同时，提倡将解决方案和踩坑经验沉淀为文件，构建可复用的“记忆库”，从而最大化 AI 工具的效率。

原文链接：Linux.do

25分钟前
多模型协作工具ccb 4.0发布：CLI秒变IDE，重构AI交互体验

开源项目 ccb 迎来 4.0 版本大升级，重构代码库并全面支持 tmux，实现了 CLI 与 VSCode 的完美结合。该工具专注于多模型实时协作，支持串并行任务调度与链式管理，有效解决上下文压力。通过将 Claude、Gemini 等模型分别赋予宏观规划、微观执行等不同角色，实现了高效的多 AI 协同工作流，大幅提升开发效率。

原文链接：Linux.do

25分钟前