开发者在利用 Claude Code 接入 DeepSeek 等纯文本大模型时,常面临视觉理解缺失的局限;而原生 Claude 大模型本身也不支持图片生成。针对这一痛点,社区开发者推出了名为“Hello-Multimodal”的开源 Skill 项目。该项目的核心功能在于充当“能力补丁”与“智能路由器”:它不仅能通过自动路由机制,将视觉理解任务转发至 GPT 多模态模型,从而让 DeepSeek 等文本模型“看懂”图片,还能为 Claude Code 补充原缺失的图片生成能力。在具体应用场景中,当用户请求分析 UI 截图时,若主模型不具备视觉能力,该技能会自动调用 GPT-5.4 进行处理并返回结果,全程无需用户手动切换模型。此外,它有效解决了本地路由代理映射导致的“虚假能力”陷阱,即不依赖模型名称,而是基于实际请求失败情况进行自动降级处理。在图片生成方面,需求会被自动委托给专门的生图引擎,并支持多渠道 Fallback 配置以适配独立计费。该项目已在 GitHub 开源,显著提升了 AI 编程工具在多模态任务下的自动化水平。
事件分析
💡 核心观点:该项目通过路由机制弥补单一模型的功能短板,预示着 AI 开发工具正从“模型绑定”向“多模型智能编排”演进。
原文链接:Linux.do







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战