AI

追踪AI行业一线动态。Claude、GPT、Gemini模型解读，RAG技术解析，AI推理边界探索。每周大模型周刊，第一时间捕获技术风向。

代码写作快免费了，软件工程反而更难了

Google DeepMind 研究副总裁 Benoit Schillings 在 AI Engineer 的这场分享里说了一句很狠的话：代码已经结束了，但还有大量事情要做。本文整理这场演讲，并结合我自己的 AI 编程 / Harness 笔记，讨论为什么未来的瓶颈不再是写代码，而是规格、验证、安全、架构和新型软件语言

赞(0)

Toy2026-07-21阅读(38)

企业 Agent 失败，不是因为模型不够大

Tesla 机器学习工程师 Ishita Daga 在这段 12 分钟分享里，把企业数据 Agent 的失败原因压到三个词：歧义、腐败、偏好。本文结合我自己的 Harness / 企业记忆笔记，讨论为什么加模型、加上下文、加知识库都不是根治方案。原视频：https://www.youtube.com/watch?v=B

赞(0)

Toy2026-07-20阅读(26)

阿里云全线云产品特惠 · 一站采购

ECS / OSS / CDN / 云数据库一站采购,常用云资源集中选配;新用户与续费均有专场优惠,适合个人开发者与小团队长期使用。

2026-07-23

别再裸奔发布 Skill：Google DeepMind 这场 21 分钟演讲讲透了 eval 为什么是准入门槛

本文整理自 Google DeepMind 工程师 Philipp Schmid 在 AI Engineer 的演讲。核心问题不是 Skill 有没有用，而是没有 eval 的 Skill 无法判断何时该触发、何时该退休，也无法证明它真的让 Agent 变好。原视频：https://www.youtube.com/wa

赞(0)

Toy2026-07-19阅读(42)

大模型周刊第37期：Kimi K3 把“DeepSeek 时刻”又推回来

第37期大模型周报，记录2026年7月11日至17日这一周的几个关键信号：OpenAI把GPT-5.6推向企业代理，Anthropic继续押注开发者生态，Google走企业集成路线，中国开源模型则用Kimi K3和GLM系列把成本压力重新打到牌桌中央。本周最值得看的，不是某一家又发了一个更大的模型。真正的变化是：美国

赞(0)

Toy2026-07-18阅读(76)

Kimi K3 不再是便宜替代品：开源 Coding 模型开始逼近前沿

本文整理自 BridgeMind 对 Kimi K3 的一次上手测试：它不再只是便宜替代品，而是开始在 UI 设计、全栈应用生成和真实 agentic coding 任务里挑战闭源前沿模型。原视频：https://www.youtube.com/watch?v=MG-uS684uc0 这期视频真正有价值的地方，不是“某

赞(0)

Toy2026-07-18阅读(62)

ChatGPT 从聊天框变成个人操作系统：Peter Yang 的 GPT-5.6 完整实践

Peter Yang 这期视频展示了 GPT-5.6 发布后，ChatGPT 桌面端如何从聊天工具变成管理邮件、日历、播客准备和网站发布的个人操作系统。这不只是一个工具教程，更是一套 AI 时代工作方式的落地样本。 Peter Yang 这期视频发布于 GPT-5.6 上线后不久。ChatGPT 桌面端每天新增一百万用

赞(0)

Toy2026-07-16阅读(70)

大模型周刊第 36 期：出厂前多了一道政府闸门

作者：toy　|　覆盖周期：2026.6.29 – 2026.7.10 这一周 OpenAI 和 Anthropic 都把自己最强的模型放了出来，但两家都不是自己说了算。GPT-5.6 等联邦机构做完安全基准评估才全球开放；Anthropi...

赞(0)

Toy2026-07-10阅读(98)

AI 产品经理自学路线: 从大模型原理到 Agent 的 12 课

这是一套面向产品经理的大模型技术自学课。它回答一个具体的问题：一个不写代码的产品经理，需要懂多少技术，才能在 AI 项目里做出靠谱的判断。答案是十二课的量——从 Token 和上下文窗口讲起，一路走到智能体、工作流、RAG、Function...

赞(0)

Toy2026-07-10阅读(117)

大模型核心术语: 产品经理够用的概念地图

这一课解决一个很具体的问题：评审会上工程师说”上下文不够、要上 RAG、温度调低点”，你能不能在三秒内明白他在说什么层面的事，并判断这话说得对不对。学完这课，你手里会有一张按”模型层、生成控制层、工程层、...

赞(0)

Toy2026-07-10阅读(72)

大模型微调入门: SFT、LoRA 与何时不该微调

这一课解决一个非常具体的问题：当工程师或供应商对你说”这个需求得微调”时，你能判断这句话是对是错。学完你会知道大模型微调到底改了模型的什么、SFT 和 LoRA 是什么关系、哪三类场景值得花这个钱、哪三类场景微调纯属...

赞(0)

Toy2026-07-10阅读(75)

MCP 协议入门: 大模型连接外部工具的统一接口

上一课讲 Function Calling 时留了一个尾巴：各家 API 的工具定义互不相通，工具一多，集成工作量就爆炸。这一课要讲的 MCP（Model Context Protocol，模型上下文协议）就是冲着这个问题来的——它是 An...

赞(0)

Toy2026-07-10阅读(74)

Function Calling 入门: 让大模型学会调用外部工具

大模型只会聊天，不会办事——这是很多产品经理对 LLM 的第一印象，也是 Function Calling（函数调用，也常叫工具调用）要打破的那堵墙。学完这一课，你能回答三个问题：模型”调用工具”时到底发生了什么；一...

赞(0)

Toy2026-07-10阅读(64)

Agentic RAG 入门: 智能体驱动的知识库检索架构

第 07 课我们搭好了朴素 RAG——把文档切块、向量化、检索出最相关的几段、塞进 prompt 让模型回答。demo 阶段它表现得很好，但一接真实用户就开始翻车：用户换个说法就检索不到，问题稍微复杂一点答案就一本正经地错。问题往往不在模型...

赞(0)

Toy2026-07-10阅读(47)

RAG 入门: 知识库分块、向量检索与增强生成

“把公司知识库接进 AI”几乎是每个 AI 产品经理都会接到的第一单需求: 智能客服要懂产品手册, 内部助手要懂规章制度, 销售工具要懂最新报价单。但模型本身不认识你公司的任何一份文档, 让它”认识...

赞(0)

Toy2026-07-10阅读(45)

工作流和智能体的区别: 什么时候用流程, 什么时候放权

第05课我们拆完了 AI 工作流, 再往前的第04课讲了智能体。两个概念单独看都不难, 难的是放在一起做选择: 手上这个需求, 到底该做成工作流, 还是做成智能体? 这是 AI 产品经理在方案评审会上最容易被问住的问题, 也是这一课要解决的...

赞(0)

Toy2026-07-10阅读(32)

AI 工作流入门: 环节拆分与分步实施的自动生产线

这一课解决一个非常具体的问题：你想让 AI 稳定地干一件复杂的活——比如每天产出一篇合格的公众号文章——但你发现，把所有要求塞进一段超长提示词里，结果时好时坏，坏了还不知道坏在哪。学完这一课，你会掌握”工作流”这个解...

赞(0)

Toy2026-07-10阅读(46)

智能体入门: 用一段提示词构建最简 AI Agent

这一课解决三个问题: 智能体(AI Agent)到底是什么, 为什么一段写得好的提示词就能构建出一个最简版本, 以及这种”纯提示词智能体”的能力边界画在哪里。学完你可以自己动手做一个能用的智能体——不写一行代码。很...

赞(0)

Toy2026-07-10阅读(53)

构建 Prompt 的场景拆解法: 把业务需求翻译成提示词

你大概遇到过这种场面：老板说”给客服系统加个 AI 总结功能”，你打开对话框写下”请总结这段对话”，跑了三次，三次结果长得都不一样——有时五百字，有时两行，有时结尾还带一句”希望这...

赞(0)

Toy2026-07-10阅读(37)

提示词工程入门: 角色、结构与 Few-shot 实战

先说结论：提示词工程（Prompt Engineering，就是设计给大模型的输入文本，让它稳定产出你要的结果）不是玄学，也不是背咒语。它是一门”把需求写成模型能执行的规格”的手艺——和你写 PRD 是同一件事，只是...

赞(0)

Toy2026-07-10阅读(38)

大模型基础原理: Token、上下文窗口与下一词预测

这是《AI 产品经理课》的第一课。学完这一课，你能解决三个非常具体的问题：开评审会时听懂工程师嘴里的 Token、上下文、温度到底指什么；接到一个 AI 需求时，快速判断它是”能做”还是”原理上就做不了&...

赞(0)

Toy2026-07-10阅读(42)

1
2
3
4
...
下一页
共 16 页

事件分析

该事件体现了AI编程工具领域日益增长的个性化定制需求与“黑客”文化的结合。通过CDP技术对Electron类应用进行运行时注入，开发者展示了一种在不修改官方二进制文件的情况下，通过协议层面干预应用UI和逻辑的能力。这种技术手段不仅修复了官方UX设计上的缺陷，更构建了一个“中间层”接口，未来可能被用于实现跨模型调度或更复杂的Agent交互逻辑。这预示着随着AI编程工具的普及，开发者将不再满足于厂商提供的标准化界面，而是倾向于利用技术手段重塑工作流，推动IDE从单一编辑器向高度可定制的智能工作站进化。

💡 核心观点：利用CDP技术“越狱”商业AI工具UI，显示了开发者对掌控智能体状态的强烈需求，开源社区正成为软件体验改良的驱动力。

事件分析

此次会议实录不仅揭示了DeepSeek独特的创业哲学，更重新定义了AI行业的竞争维度。DeepSeek将“成本”视为第一竞争力，试图通过工程优化和MoE架构打破算力霸权，证明在有限资源下（几分之一的算力）依然可以缩短与OpenAI的差距。这种以“效率”为核心的战略，直接挑战了目前行业中单纯堆砌GPU的Scaling Law模式。

此外，明确将产品定义为“副产物”，并将技术重心聚焦于Coding Agent和持续学习，表明DeepSeek试图绕过传统的流量争夺和应用层内卷，直接切入生产力的核心变革。这种非典型的“反共识”路径，若能通过开源生态构建起足够高的技术壁垒，可能会加速中国大模型行业从“百模大战”向“架构创新与实用主义”收敛，迫使全行业重新评估技术迭代的性价比。

💡 核心观点：DeepSeek 以“克制”重构行业规则，将开源与低价视为打破算力霸权的战略武器，证明通往 AGI 的核心在于技术效率而非商业垄断。

事件分析

技术层面，此次故障属于典型的 Structured Output（结构化输出）失败案例。大模型在理解自然语言意图后，需要将其严格转换为代码可执行的 JSON 或特定格式参数，这中间的“转换层”极易受到模型幻觉干扰。Grok-4.5 出现的空参数问题，说明其底层的推理逻辑尚未完全驯化，无法保证 100% 的语法遵从。从产业影响来看，随着 AI 编程和 Agentic Workflow（智能体工作流）成为热点，模型的工具调用能力已成为衡量其实用价值的关键指标。工具调用率低或错误率高，直接限制了模型在自动化运维、数据分析及复杂编程场景中的应用上限。这提示开发者，目前阶段尚不能完全信任模型的自主执行能力，仍需在应用层加入繁琐的校验代码。未来模型的迭代方向，预计将从单纯追求对话的拟人化，转向对工具协议适配的精准度与鲁棒性优化，这也是实现真正“超级智能体”的必经之路。

💡 核心观点：工具调用频繁出现空名称错误，揭示了从“聊天机器人”向“实用智能体”演进的过程中，模型执行稳定性仍是最大短板。

事件分析

从技术架构演进的角度来看，这一讨论触及了大模型应用开发的核心矛盾：即能力是在模型内部解决，还是在应用层解决。将工具调用能力“内化”为模型的原子能力，标志着大模型正从单纯的“语言概率预测器”向具备自主感知与执行能力的“任务执行体”进化。

这种转变对产业界具有深远影响。首先，它大幅降低了Agent开发的技术门槛，开发者无需编写复杂的提示词工程或外部解析逻辑，即可利用模型原生能力构建复杂应用。其次，这意味着算力厂商正在通过API形式进行更高层次的抽象，将“推理”与“行动”打包出售。然而，这也可能带来新的挑战，如模型对工具调用的“黑盒”化可能导致调试困难，以及过度依赖特定厂商的API生态可能造成新的供应商锁定风险。未来的竞争将不再局限于模型智商的高低，而是取决于模型对工具调用的精准度与多工具编排的鲁棒性。

💡 核心观点：原生工具调用能力的普及标志着LLM正从“文本生成器”质变为具备原生执行能力的“超级智能体”，传统的外挂式Agent架构将逐渐被内化到模型底座之中。

事件分析

从技术趋势看，TubeSummary 代表了 AI 大模型在“端侧应用”和“信息增强”方向上的落地。它利用浏览器的扩展能力作为载体，调用云端大模型对非结构化的视频数据进行“降噪”和“结构化”处理，这是 RAG（检索增强生成）技术在消费级场景的典型应用。
在产业影响上，此类工具的普及正在改变用户与流媒体内容的交互方式，从被动观看转变为主动检索和预判。虽然当前版本依赖字幕，但其升级路线图显示出向多模态（音频直接转文本）进化的趋势。随着视频内容量的爆炸式增长，嵌入在浏览器中的 AI 代理工具将成为用户获取知识的必要基础设施，这种轻量化的 AI 应用形态具有很高的实用价值。

💡 核心观点：嵌入浏览器的 AI 预处理能力将成为长视频内容的标配，将流媒体转化为可检索的高密度知识库。

事件分析

该事件本质上是企业合规政策与一线研发生产力之间的博弈。从技术维度看，目前国际主流的AI编码助手（如GitHub Copilot）与设计工具（如Figma AI）已经形成了较为成熟的API生态和插件体系，能够深度嵌入开发者的工作流。相比之下，部分国产AI工具虽然在模型底层能力上通过大参数量追平了差距，但在“最后一公里”的工程化落地——即VS Code、JetBrains等IDE的插件体验，以及对Figma、Adobe等设计软件的API兼容性上，仍存在明显断层。强制切换往往意味着开发者需要放弃已经训练好的提示词习惯和自动化脚本，回归到效率较低的人工交互模式。这种“水土不服”不仅是工具好用与否的问题，更是国产AI生态尚未完全建立细分领域护城河的体现。未来，国产AI厂商若想真正拿下B端市场，除了卷模型参数，更需在开发者工具链的上下游适配上下功夫。

💡 核心观点：政策驱动下的国产AI替代已成定局，但只有补齐生态工具链短板，才能真正解决企业的效率焦虑。

AI

置顶推荐

前沿哨所

基于CDP回环技术：开源项目为Codex添加侧边栏常驻额度面板

事件分析

DeepSeek梁文锋万字实录：产品是副产物，开源是克制，目标是AGI

事件分析

Grok-4.5 惊现工具调用 Bug，AI 智能体开发仍面临稳定性挑战

事件分析

深度解析：当大模型原生支持工具调用，是否意味着“模型即Agent”时代已来？

事件分析

TubeSummary：一款利用 AI 快速生成 YouTube 摘要与洞察的 Chrome 插件

事件分析

企业强制推行国产AI工具引发开发与设计团队效率焦虑

事件分析

最新文章

热门专题

热门标签

网站统计

GLM Claude Code · 国产平替不封号

官方 Claude Code 又涨价又要 KYC,封号还得重配环境?智谱 GLM 兼容 Claude Code,稳定不封号、价格友好,注册后把现有 Claude Code 工作流直接切过来继续用。