共 1732 篇文章

标签：AI Agent

企业 Agent 失败，不是因为模型不够大

Tesla 机器学习工程师 Ishita Daga 在这段 12 分钟分享里，把企业数据 Agent 的失败原因压到三个词：歧义、腐败、偏好。本文结合我自己的 Harness / 企业记忆笔记，讨论为什么加模型、加上下文、加知识库都不是根治方案。原视频：https://www.youtube.com/watch?v=B

赞(0)

Toy2026-07-20AI 阅读(29)

别再裸奔发布 Skill：Google DeepMind 这场 21 分钟演讲讲透了 eval 为什么是准入门槛

本文整理自 Google DeepMind 工程师 Philipp Schmid 在 AI Engineer 的演讲。核心问题不是 Skill 有没有用，而是没有 eval 的 Skill 无法判断何时该触发、何时该退休，也无法证明它真的让 Agent 变好。原视频：https://www.youtube.com/wa

赞(0)

Toy2026-07-19AI 阅读(43)

阿里云全线云产品特惠 · 一站采购

ECS / OSS / CDN / 云数据库一站采购,常用云资源集中选配;新用户与续费均有专场优惠,适合个人开发者与小团队长期使用。

2026-07-23

大模型周刊第37期：Kimi K3 把“DeepSeek 时刻”又推回来

第37期大模型周报，记录2026年7月11日至17日这一周的几个关键信号：OpenAI把GPT-5.6推向企业代理，Anthropic继续押注开发者生态，Google走企业集成路线，中国开源模型则用Kimi K3和GLM系列把成本压力重新打到牌桌中央。本周最值得看的，不是某一家又发了一个更大的模型。真正的变化是：美国

赞(0)

Toy2026-07-18AI 阅读(78)

ChatGPT 从聊天框变成个人操作系统：Peter Yang 的 GPT-5.6 完整实践

Peter Yang 这期视频展示了 GPT-5.6 发布后，ChatGPT 桌面端如何从聊天工具变成管理邮件、日历、播客准备和网站发布的个人操作系统。这不只是一个工具教程，更是一套 AI 时代工作方式的落地样本。 Peter Yang 这期视频发布于 GPT-5.6 上线后不久。ChatGPT 桌面端每天新增一百万用

赞(0)

Toy2026-07-16AI 阅读(72)

MCP 协议入门: 大模型连接外部工具的统一接口

上一课讲 Function Calling 时留了一个尾巴：各家 API 的工具定义互不相通，工具一多，集成工作量就爆炸。这一课要讲的 MCP（Model Context Protocol，模型上下文协议）就是冲着这个问题来的——它是 An...

赞(0)

Toy2026-07-10AI 阅读(74)

智能体入门: 用一段提示词构建最简 AI Agent

这一课解决三个问题: 智能体(AI Agent)到底是什么, 为什么一段写得好的提示词就能构建出一个最简版本, 以及这种”纯提示词智能体”的能力边界画在哪里。学完你可以自己动手做一个能用的智能体——不写一行代码。很...

赞(0)

Toy2026-07-10AI 阅读(53)

AI Engineer 2026 第三天讲的是给 Agent 造缰绳

AI Engineer World’s Fair 2026 收尾日（官方叫 Day 4），主舞台的关键词是 harness engineering。如果说 Day 1 在搭软件工厂、Day 2 在教工厂做研究，Day 3 问的是...

赞(0)

Toy2026-07-06实战阅读(68)

Howie Liu 讲的是雇一个 agent 当员工

这届 AI Engineer World’s Fair 2026 最后一个环节,没有再谈模型又强了多少,谈的是怎么把 agent 当员工来雇、来管、来放权。讲这个的是 Airtable 创始人 Howie Liu,他讲完之后,大...

赞(0)

Toy2026-07-06实战阅读(51)

Mike Krieger 从产品负责人退回一线，用 Claude 的方式也变了

硅谷这两年出现一个反常的现象：干到 CTO、CPO 位置的人，反而想办法”降级”回去写代码。Mike Krieger 是这批人里最扎眼的一个——Instagram 联合创始人，在 Anthropic 做了两年首席产品...

赞(0)

Toy2026-07-06实战阅读(47)

模型升级的速度，超过了工程师适应的速度

Theo Browne 给自己这半年的状态起了个名字，”AI psychosis”。开场他自嘲，主持人介绍他上台前大概也在犯嘀咕：闭幕 keynote 怎么请了个 YouTuber 来讲 AI。t3dotgg 这个名...

赞(0)

Toy2026-07-06实战阅读(41)

1
2
3
4
...
下一页
共 174 页

事件分析

该事件揭示了客户端 AI 工具与云端大模型 API 交互时关于缓存机制的典型冲突。Claude Code 的 Attribution Block 设计初衷在于会话追踪与调试，但其包含的动态指纹哈希直接破坏了大模型 API 基于文本匹配的缓存逻辑。在 AI 开发中，Prompt 的微小变动往往会导致缓存未命中，进而引发推理成本的线性甚至指数级增长。对于开发者而言，这提醒我们在混合使用不同厂商的工具链（如 Anthropic 的客户端工具配合 DeepSeek 的推理模型）时，必须严格控制 Prompt 结构的稳定性，警惕客户端工具自动插入的“隐藏字符”或元数据对成本控制的影响。该解决方案也侧面反映了当前 AI 基础设施在标准化和互操作性上仍有优化空间，简单的配置调整即可解决核心矛盾，说明此类功能并非不可剥离，开发者需根据实际部署环境灵活调整。

💡 核心观点：客户端工具的微小元数据变动能击穿大模型缓存成本，提示词工程中的输入稳定性是控制 AI 运营成本的关键。

事件分析

此次Cursor计费页面频繁变动引发的争议，折射出AI开发工具在商业化进程中的典型痛点。作为深受开发者喜爱的产品，Cursor在快速迭代产品功能的同时，其后端计费系统似乎未能跟上步伐。隐藏Token消耗详情和修改积分抵扣规则，虽然可能是出于控制API成本或防止套利的商业考量，但在缺乏充分沟通的情况下进行“暗箱”调整，严重违背了开发者群体对透明度与确定性的核心诉求。从技术角度看，频繁改动UI和数据结构暗示其后台计费架构可能尚未完全稳定，正处于快速试错阶段。这种不透明的计费模式若持续下去，可能会动摇部分重度用户的信任基础，特别是在Twin等其他竞争产品日益活跃的背景下，保持计费的透明与稳定是留住用户的关键。

💡 核心观点：AI编程工具在追求商业闭环时，频繁变动计费逻辑与降低数据透明度，正成为消耗开发者信任的关键隐患。

事件分析

此次讨论反映了当前 AI 编程领域“可用”与“好用”之间的核心差异，本质上是大模型逻辑推理能力与应用落地效果的比拼。Claude 之所以在 IDE 环境中备受推崇，主要得益于其在长上下文窗口内的指令遵循能力以及对代码语义的深层理解，这使其能够精准执行如“仅修改特定函数逻辑”而不破坏其余代码的微操指令。相比之下，虽然国产大模型在中文交互和基础生成上具有优势，但在处理复杂的软件工程依赖关系和隐性逻辑推理时仍存在波动。这也从侧面印证了 AI 编程工具的竞争正从单纯的“对话聊天”转向深度的“Agent 化协作”，即模型能否像一个真正的程序员一样思考工程规范，而非仅仅充当代码生成的文本生成器。对于国产模型而言，如何在保持参数规模的同时，加强对复杂代码图谱的理解和精细化的 diff 生成能力，是打破当前开发者使用惯性的关键。

💡 核心观点：Claude 在代码场景的统治力表明，精准的推理逻辑与上下文理解能力已超越单纯参数规模，成为 AI 编程工具的核心壁垒。

事件分析

从技术架构角度看，在 20KB 的体量限制内集成 CRDT 协同算法与流式渲染机制，体现了极高的代码密度与底层优化能力。这填补了轻量级编辑器市场中不支持高性能协同算法的空白。CRDT 作为实现离线优先与多端强一致性的关键技术，通常需要引入较大的依赖库，而 domd 的实现为嵌入式 Web 应用或对包体积敏感的开发者工具提供了新的选择。同时，采用 PolyForm Noncommercial 1.0.0 许可表明作者在保持技术开源吸引力的同时，对商业应用持谨慎态度，这种“非商用开源+商业授权”的模式是个人开发者维护基础设施类项目的常见策略。

💡 核心观点：极致轻量化与底层协同算法的融合证明了核心内核不必臃肿，为构建下一代高性能、轻量级生产力工具提供了新的技术范式。

事件分析

该事件体现了AI编程工具领域日益增长的个性化定制需求与“黑客”文化的结合。通过CDP技术对Electron类应用进行运行时注入，开发者展示了一种在不修改官方二进制文件的情况下，通过协议层面干预应用UI和逻辑的能力。这种技术手段不仅修复了官方UX设计上的缺陷，更构建了一个“中间层”接口，未来可能被用于实现跨模型调度或更复杂的Agent交互逻辑。这预示着随着AI编程工具的普及，开发者将不再满足于厂商提供的标准化界面，而是倾向于利用技术手段重塑工作流，推动IDE从单一编辑器向高度可定制的智能工作站进化。

💡 核心观点：利用CDP技术“越狱”商业AI工具UI，显示了开发者对掌控智能体状态的强烈需求，开源社区正成为软件体验改良的驱动力。

事件分析

此次会议实录不仅揭示了DeepSeek独特的创业哲学，更重新定义了AI行业的竞争维度。DeepSeek将“成本”视为第一竞争力，试图通过工程优化和MoE架构打破算力霸权，证明在有限资源下（几分之一的算力）依然可以缩短与OpenAI的差距。这种以“效率”为核心的战略，直接挑战了目前行业中单纯堆砌GPU的Scaling Law模式。

此外，明确将产品定义为“副产物”，并将技术重心聚焦于Coding Agent和持续学习，表明DeepSeek试图绕过传统的流量争夺和应用层内卷，直接切入生产力的核心变革。这种非典型的“反共识”路径，若能通过开源生态构建起足够高的技术壁垒，可能会加速中国大模型行业从“百模大战”向“架构创新与实用主义”收敛，迫使全行业重新评估技术迭代的性价比。

💡 核心观点：DeepSeek 以“克制”重构行业规则，将开源与低价视为打破算力霸权的战略武器，证明通往 AGI 的核心在于技术效率而非商业垄断。

标签：AI Agent

企业 Agent 失败，不是因为模型不够大

别再裸奔发布 Skill：Google DeepMind 这场 21 分钟演讲讲透了 eval 为什么是准入门槛

阿里云全线云产品特惠 · 一站采购

大模型周刊第37期：Kimi K3 把“DeepSeek 时刻”又推回来

ChatGPT 从聊天框变成个人操作系统：Peter Yang 的 GPT-5.6 完整实践

MCP 协议入门: 大模型连接外部工具的统一接口

智能体入门: 用一段提示词构建最简 AI Agent

AI Engineer 2026 第三天讲的是给 Agent 造缰绳

Howie Liu 讲的是雇一个 agent 当员工

Mike Krieger 从产品负责人退回一线，用 Claude 的方式也变了

模型升级的速度，超过了工程师适应的速度

置顶推荐

前沿哨所

禁用 Attribution 头部：修复 Claude Code 接入 DeepSeek 时的缓存失效与费用暴涨

事件分析

Cursor因频繁调整计费页面遭质疑：推广返现数据清零，Token消耗不再透明

事件分析

开发者热议：Claude Code为何在实际编程体验上优于国产大模型？

事件分析

仅 20KB 内核：自研 Markdown 编辑器 domd 0.3.0 发布，支持 CRDT 无冲突合并

事件分析

基于CDP回环技术：开源项目为Codex添加侧边栏常驻额度面板

事件分析

DeepSeek梁文锋万字实录：产品是副产物，开源是克制，目标是AGI

事件分析

最新文章

热门专题

热门标签

网站统计

GLM Claude Code · 国产平替不封号

官方 Claude Code 又涨价又要 KYC,封号还得重配环境?智谱 GLM 兼容 Claude Code,稳定不封号、价格友好,注册后把现有 Claude Code 工作流直接切过来继续用。