 

当前位置：80aj  前沿  正文

Gemini 3模型幻觉频发，Deep Research可靠性受挑战

2026-01-01 分类：前沿阅读(187) 赞(0)

用户分享了基于Gemini 3系列开发的Deep Research工具在应用中的幻觉问题。Gemini 3 pro preview在32K上下文内表现良好，但超出则效果差；3 flash虽注意力好但懒惰且内容较浅。当研究Claude-opus-4-5时，模型错误报告上下文为2万而非32K，且不承认opus-4-5版本。作者试图通过审查器重新搜索，但导致正确信息被篡改。文章揭示了AI模型在复杂任务中的可靠性挑战，引发对谷歌AI技术深度的质疑。

原文链接：Linux.do

赞(0)

未经允许不得转载：80aj » Gemini 3模型幻觉频发，Deep Research可靠性受挑战

分享到

前沿哨所

OpenAI新版ChatGPT遭吐槽：强行融合代码与对话模式，Mac端体验大幅倒退
OpenAI近期在发布模型更新的同时，对macOS客户端进行了大幅改版，强制将经典ChatGPT对话模式与Codex代码模式合并，并停止维护“Classic”经典模式。然而，此次更新引发了重度用户对“对话”体验的强烈不满。主要问题包括：首先，多窗口交互功能失效，用户无法将对话独立窗口打开进行对照，严重降低了多任务处理效率；其次，基础功能“末次Prompt重编辑”莫名消失，该功能在代码模式下尚存，却在对话模式中被移除；更为严重的是，Mac端的模型表现疑似降智，生成速度快但内容缺乏深度，且一旦切换窗口或最小化App，后台生成进程便会直接中断，无法像网页版或iOS版那样支持后台运行与推送通知。这些问题导致依赖Claude和GPT进行规划的开发者工作流严重受阻。

事件分析

此次更新反映了AI客户端在功能迭代过程中的“一致性”牺牲。OpenAI试图统一代码生成与对话交互的产品形态，这虽然符合从“聊天框”向“工作站”演进的趋势，但在技术实现上却出现了严重的交互割裂。特别是Mac客户端的后台中断问题，暗示了原生应用在进程管理与API长连接稳定性上可能存在底层缺陷，或者是为了某种资源管控策略而人为限制。这种“缝合”不仅未提升体验，反而破坏了原有网页端和移动端的连贯性。对于追求极致效率的开发者而言，桌面端若无法提供优于Web端的多任务处理能力，其存在的价值将大打折扣，这或将进一步加剧用户向Claude等注重体验细节的竞品流失。

💡 核心观点：桌面端体验的粗暴降级表明OpenAI重模型轻交互，强行整合反而破坏了产品核心工作流。

原文链接：Linux.do
刚刚
开源编程助手 Codeg V0.21.0 发布：引入多智能体协作工作台
GitHub 开源项目 Codeg 发布了 V0.21.0 版本，此次更新以“焕新体验”为核心，重点推出了多智能体协作工作台功能。该项目定位为一款智能编程辅助工具，旨在通过人工智能技术解决软件开发中的重复性劳动与代码错误问题。新版本最大的亮点在于引入了多智能体系统架构，改变了以往单一模型进行代码交互的模式，转而通过多个具备不同功能的 AI 智能体协同工作，模拟真实开发团队的协作流程。这种架构设计有望提升代码生成的准确性，并实现更复杂的任务自动化处理。开发者可以通过该工具实现代码的直接生成与优化，减少手动编写代码的疲劳感，回应了社区对于“永无 BUG”和高效开发的诉求。作为一款完全开源的解决方案，Codeg 为关注前沿技术的研究者和开发者提供了不同于闭源商业软件（如 Cursor 或 Copilot）的探索路径，进一步推动了 AI 编程工具在开源生态中的普及与应用。

事件分析

从技术视角来看，Codeg 更新至 V0.21.0 版本标志着 AI 辅助编程工具正加速向“多智能体协同”方向演进。相比于单一模型的线性交互，多智能体架构能够通过角色分工（如一个 Agent 负责规划，一个负责编码，一个负责审查）来显著提升复杂任务的处理效率和代码质量，这实际上是软件工程中敏捷开发理念在 AI 侧的投影。产业层面，随着 Cursor、Claude Code 等工具的兴起，AI 编程已成红海，开源社区出现此类对标项目具有重要意义，它降低了开发者尝试前沿 AI 编程技术的门槛，并提供了更高的数据隐私可控性。此举可能激发更多基于现有大模型构建 specialized agents（专用智能体）的开发热潮，促使 AI 编程工具从简单的“自动补全”向具备自主协作能力的“虚拟开发团队”形态转型。

💡 核心观点：多智能体协作架构正成为AI编程工具的新范式，开源生态的加入将加速软件开发从‘人机协作’向‘智能体自治’方向演进。

原文链接：V2EX 分享发现
刚刚
开源项目 Codeg 更新：集成 Claude 与 Grok 的多智能体 AI 编程工作台
开源社区 Linux.do 近期推介了名为 Codeg 的 V0.21.0 版本，这是一个定位为协作式多智能体 AI 编码工作台的开源项目。该项目旨在为开发者提供一个集成的环境，以管理和聚合来自不同 AI 服务的编码会话。
根据其 GitHub 仓库描述，Codeg 的核心价值在于能够“聚合会话”。它支持将 Claude Code、Codex、OpenCode、Pi 以及 Grok Build 等多种 AI 编程工具的会话数据整合到统一的界面中。这种设计允许开发者在同一工作流中调用和对比不同模型的输出，而非在多个标签页或应用之间频繁切换。该工具不仅限于单一平台，而是通过构建一个通用的中间层，连接了目前市场上主流的 AI 代码生成能力。
在部署形态上，Codeg 提供了多种安装选项以适应不同的使用场景，包括本地运行的桌面应用程序、支持团队协作的自托管服务器，以及便于容器化部署的 Docker 方案。项目方强调，该软件完全开源，无闭源组件，并已通过社区推广认证。
此次 V0.21.0 版本的发布，标志着该项目在多智能体协作领域的进一步探索。虽然具体的变更日志在原始帖文中以截图形式展示，但其产品逻辑直击当前 AI 编码工具碎片化的痛点，试图通过统一的工作台来优化 AI 原生开发的体验。

事件分析

从技术架构来看，Codeg 所代表的“多智能体协作工作台”模式，反映了开发者工具领域正在从单一模型适配向多模型编排转型。目前市场上的 AI 编程工具往往绑定特定的模型或服务，而 Codeg 的差异化在于其扮演了“中间层”或“Hub”的角色。通过构建统一的协议层来解析不同来源（如 Claude、Grok）的会话数据，该项目尝试打破不同 AI 生态之间的孤岛效应。
在产业层面，此类工具的出现迎合了开发者对于“模型选择权”的需求。随着大模型能力在不同垂直领域的快速迭代，开发者往往需要针对不同任务切换模型。能够在一个工作流中无缝切换并保存上下文的工具，将成为提升软件工程效率的关键基础设施。这种趋势预示着未来的 IDE 可能不再仅仅是代码编辑器，而是演变为 AI 智能体的调度中心。

💡 核心观点：聚合多模型会话的 Codeg 展示了 AI 编程工具从单点应用向智能体调度平台演进的趋势。

原文链接：Linux.do
刚刚
零基础开发的可行性与挑战：AI 时代普通人能否独立构建软件应用
近日，V2EX 社区的一则讨论引发了技术圈对于“AI 编程普惠化”的关注。一位拥有 20 年电脑使用经验但毫无编程背景的用户提问，在当前大模型技术突飞猛进的背景下，普通人是否能够完全依赖 AI 开发供个人使用的单机辅助工具。这一提问折射出当前软件开发领域的深刻变革。随着 Claude、ChatGPT、DeepSeek 等大模型能力的提升，以及 Cursor、Claude Code 等智能开发工具的普及，软件开发的准入门槛正在经历前所未有的降低。过去需要数年学习才能掌握的语法逻辑，现在可以通过自然语言交互由 AI 生成。目前，利用 AI 进行“无中生有”的代码生成已成为现实，许多独立开发者甚至非技术人员，通过编写精准的提示词，已经成功开发出了诸如图像处理、文本自动化等轻量级工具。然而，从社区反馈来看，完全的“零代码”仍面临挑战。AI 虽能解决大部分语法问题，但在复杂的逻辑架构、调试报错以及处理特定环境依赖时，仍要求使用者具备基础的计算机思维和代码阅读能力。对于仅想开发“单机小软件”的普通人而言，AI 已经足以胜任大部分基础开发工作，标志着软件开发正从“精英专享”向“大众创作”过渡。

事件分析

这一现象标志着软件工程正进入“Vibe Coding”（直觉编程）的萌芽阶段，开发者的核心竞争力正在从代码编写能力转移为逻辑构思与需求拆解能力。虽然目前大模型在处理复杂系统架构和长上下文逻辑时仍存在幻觉或不可靠性，导致完全依赖 AI 开发成熟软件仍有难度，但在轻量级工具开发领域，AI 已经显著降低了边际成本。这种趋势意味着软件开发将不再是技术壁垒，而是逻辑实现的工具，未来可能催生大量由业务专家而非专业程序员构建的长尾应用，推动软件供给端的大爆发。

💡 核心观点：AI 正将编程从“记忆语法”转变为“描述逻辑”，虽然调试能力仍是短板，但开发门槛的骤降已使非技术人群独立开发软件成为可能。

原文链接：V2EX 分享发现
刚刚
商汤 SenseNova U1-Pro 模型发布：国产文生图技术的“DeepSeek 时刻”？
商汤科技近日通过其日日新·商汤大模型平台正式发布了全新的图像生成模型 U1-Pro，展示了该模型在视觉生成领域的最新成果。据社区反馈及官方展示的样片分析，U1-Pro 在生成质量上实现了显著突破，画面细节、光影效果及语义理解能力均达到较高水准。有观点指出，该模型的表现已足以比肩 OpenAI 的最新图像生成技术，且在特定场景下甚至优于谷歌旗下的同类竞品。此次发布被业界视为国产 AI 在文生图领域的“DeepSeek 时刻”，意指国内模型不仅在性能上实现了对国际巨头的追赶，更可能在技术路线或工程化落地上具备独特的竞争优势。此前，商汤已开放 U1-Fast 版本的公测，而 U1-Pro 的亮相进一步强化了其在视觉生成领域的市场地位。随着大模型技术的快速迭代，国产 AIGC 模型正逐步打破既有格局，成为全球 AI 视觉生成领域的重要竞争力量。

事件分析

商汤 SenseNova U1-Pro 的推出，标志着国产文生图模型在技术成熟度上迈出了关键一步。将其比作“DeepSeek 时刻”，不仅是对其生成质量的肯定，更暗示了国产大模型在“高性价比”或“极致性能”层面的潜在爆发力。目前视觉生成领域主要由 OpenAI（DALL-E 3/Sora）和谷歌（Imagen/Gemini）等国际巨头主导，U1-Pro 的出现意味着国内厂商已具备在旗舰级产品线上正面交锋的实力。从技术层面看，该模型可能采用了优化的架构或训练策略，以在保证画质的同时降低推理成本或提升生成速度。这一事件可能加剧 AIGC 市场的价格战与技术竞争，推动国内开发者在图像生成应用层面的创新，迫使行业从单纯的“参数竞赛”转向实际落地与用户体验的综合比拼。

💡 核心观点：国产文生图模型正从“可用”迈向“好用”，U1-Pro的发布预示着全球视觉生成技术将进入中美厂商双雄争霸的新阶段。

原文链接：Linux.do
刚刚
用户实测Kimi K3生成解剖级3D模型：自信承诺却潦草翻车，引发生成式提示词讨论
一位开发者近日在技术社区分享了使用月之暗面Kimi K3大模型进行Web开发实测的经历。该实验旨在通过自然语言指令，让AI自动生成一个包含“解剖级逼真3D模型”且画风契合素描插画的肌肉拉伸指导网站。在交互过程中，Kimi表现出极高的信心，承诺其生成的模型将严格符合解剖学标准且风格统一。然而，最终的演示结果显示，尽管整体UI界面布局尚可，但核心的3D肌肉模型渲染效果极其粗糙潦草，与预期的“逼真”和“解剖级”相去甚远。这一案例生动揭示了当前AI编程在处理复杂3D图形渲染逻辑时的局限性，引发了社区关于如何优化提示词以提升AIGC视觉产出质量的探讨。

事件分析

此次事件反映了当前大模型在AI编程与代码生成领域的特定能力边界。虽然大模型在常规的UI布局和逻辑代码生成上已具备较高效率，但在涉及复杂的空间几何计算、3D渲染细节（如Three.js或WebGL应用）时，往往会出现“理解偏差”或“执行精度不足”的情况。Kimi的“自信承诺”实际上是代码幻觉的一种表现形式，即模型无法准确预判其生成的代码在视觉端的实际呈现效果。这表明，在利用AI进行包含复杂视觉元素的开发时，人工介入代码审查和调试仍是不可或缺的环节。行业未来可能需要引入更多具备多模态校验能力的Agent，来解决文本描述与视觉生成之间的语义鸿沟。

💡 核心观点：大模型在代码生成上的“盲目自信”凸显了其在复杂3D渲染与空间计算上的能力短板，AI辅助开发仍需人工把控核心视觉质量。

原文链接：Linux.do
刚刚

GLM Claude Code · 国产平替不封号

官方 Claude Code 又涨价又要 KYC,封号还得重配环境?智谱 GLM 兼容 Claude Code,稳定不封号、价格友好,注册后把现有 Claude Code 工作流直接切过来继续用。

立即体验 GLM查看套餐价格

Gemini 3模型幻觉频发，Deep Research可靠性受挑战

相关推荐

作者介绍

Toy

置顶推荐

前沿哨所

OpenAI新版ChatGPT遭吐槽：强行融合代码与对话模式，Mac端体验大幅倒退

事件分析

开源编程助手 Codeg V0.21.0 发布：引入多智能体协作工作台

事件分析

开源项目 Codeg 更新：集成 Claude 与 Grok 的多智能体 AI 编程工作台

事件分析

零基础开发的可行性与挑战：AI 时代普通人能否独立构建软件应用

事件分析

商汤 SenseNova U1-Pro 模型发布：国产文生图技术的“DeepSeek 时刻”？

事件分析

用户实测Kimi K3生成解剖级3D模型：自信承诺却潦草翻车，引发生成式提示词讨论

事件分析

最新文章

热门专题

热门标签

网站统计

GLM Claude Code · 国产平替不封号

官方 Claude Code 又涨价又要 KYC,封号还得重配环境?智谱 GLM 兼容 Claude Code,稳定不封号、价格友好,注册后把现有 Claude Code 工作流直接切过来继续用。