共 297 篇文章

标签：AI智能体

Function Calling 入门: 让大模型学会调用外部工具

大模型只会聊天，不会办事——这是很多产品经理对 LLM 的第一印象，也是 Function Calling（函数调用，也常叫工具调用）要打破的那堵墙。学完这一课，你能回答三个问题：模型”调用工具”时到底发生了什么；一...

赞(0)

Toy2026-07-10AI 阅读(79)

把 agent 做成可以崩溃、可以恢复的进程

这几年关于 agent 可靠性的讨论,大部分停在 prompt 层:更细的系统提示、更清楚的工具描述、更谨慎的报错文案。Restate 的 Giselle van Dongen 在 AI Engineer World’s Fai...

赞(0)

Toy2026-07-06实战阅读(43)

阿里云全线云产品特惠 · 一站采购

ECS / OSS / CDN / 云数据库一站采购,常用云资源集中选配;新用户与续费均有专场优惠,适合个人开发者与小团队长期使用。

2026-07-31

Philipp Schmid 把 agent 代码搬进文件夹里

我们自己这几个月往 .claude/skills/ 里塞的东西越来越多，写博客、发飞书消息、查日志，大多是一个文件夹加几份 Markdown，很少再专门写一段 Python 脚本去处理某个特殊情况。AI Engineer WorldR...

赞(0)

Toy2026-07-06实战阅读(46)

GEPA 分享如何用轨迹反思优化系统

Self-Improvement of Context, Harness, and Model Weights through Reflective Optimization 这场分享来自 AI Engineer World’s...

赞(0)

Toy2026-07-02AI 阅读(41)

Perception Agents 解决真实软件里的视觉状态

Perception Agents 这场分享来自 AI Engineer World’s Fair 2026 Day 2 主舞台，讲者是 Antje Barth。本文只整理会议内容和分享脉络，不做个人使用心得。原视频：http...

赞(0)

Toy2026-07-02AI 阅读(41)

Codex 的用法正在从写代码变成分派工作

Jason Liu 的 Codex 分享很实用。他没有停在 “让 AI 帮我写一个函数”，而是把 Codex 当成能接任务、查资料、跑验证、回报结果的工作单元。原视频：https://www.youtube.com...

赞(0)

Toy2026-07-02实战阅读(55)

OpenAI 把 Codex 放进外层工作流

OpenAI 的 Alexander Embiricos 和 Romain Huet 讲 “The Golden Age of AI Engineering”。这场不只是模型能力展示，它更像 OpenAI 对 Cod...

赞(0)

Toy2026-07-02实战阅读(39)

AI Engineer 2026 开场讲的是最高的 loop

swyx 的开场只有几分钟，但它给这一天定了调。他没有把 AI Engineer World’s Fair 讲成一个普通大会，而是把它叫做 “the highest loop”：人聚在一起，讨论下一轮该把...

赞(0)

Toy2026-07-02实战阅读(114)

只读 Agent 没变更安全，只是更会撒谎

— title: “Read-only agents don’t become safer; they become better liars” date: 2026-06-04T09:00:00 ...

赞(0)

AtuiBot2026-06-04碎片阅读(51)

让 Agent 会思考：规划与推理范式

作者：toy 大多数人第一次看到 ChatGPT 流式输出时，误以为模型在”思考”。实际上它在做一件更机械的事：每次预测下一个 token 的概率分布，然后采样。这个过程里没有回溯，没有规划，没有对全局的感知。一个字...

赞(0)

Toy2026-05-30AI 阅读(120)

1
2
3
4
...
下一页
共 30 页

事件分析

此类现象通常指向大型语言模型（LLM）服务商的后台资源调度策略。服务商可能会根据会话类型、用户付费等级或系统负载情况，动态调整调用的底层模型版本。所谓的“降智”往往意味着模型被路由至参数量较小、推理成本更低的小型模型，或者在输出策略上限制了思维链（CoT）的深度以降低 Token 消耗。“GPT 5.5 mini”这一名称的现身，若非单纯的模型幻觉，可能暗示了 OpenAI 正在秘密测试下一代小型模型的特定版本，或者是对不同功能入口（Work vs Chat）进行了 A/B 测试。这种分层服务策略虽然有助于优化成本和响应速度，但也对付费用户（如 Pro 用户）的体验一致性构成了挑战，体现了当前 AI 商业化落地中算力成本与用户体验之间的博弈。

💡 核心观点：“降智”风波背后，折射出AI巨头在算力成本高压下对不同产品入口实施差异化模型调度的激进策略。

事件分析

从技术视角审视，该项目验证了生成式 AI 在处理完整全栈任务上的成熟度，特别是在 UI 生成、API 逻辑及并发控制（如限流、缓存）等标准工程领域。开发者的职责从“编写代码”转向“审查代码与保障稳定性”，人类工作重心下沉至底层的 DevOps、压测与模型微调。这一案例表明，未来的软件工程将更加依赖 AI 对应用层的自动化生成，而人类的核心竞争力将体现在对系统架构的顶层设计、对复杂基础设施的掌控以及对 AI 生成代码质量的审计能力上。

💡 核心观点：AI 编程正将应用层开发自动化，迫使开发者角色向架构设计与 DevOps 运维方向深度转型。

事件分析

此次事件的技术核心在于大语言模型在处理复杂逻辑推理与高难度数学证明上的能力跃升。传统的数学研究高度依赖人类构建的优雅框架，而 AI 展现出的“暴力”或“混乱”解题路径，证明了在追求真理的过程中，功能性可以优先于形式美学。从产业影响看，这表明 AI 正从单纯的内容生成工具向科学研究辅助工具转型。虽然目前的证明过程在人类看来不够简洁，但随着模型推理能力的优化（如强化学习的引入），未来 AI 有望在 P=NP 等重大数学难题上取得突破，彻底改变科学研究的范式。

💡 核心观点：AI以“不优雅”的暴力推理打破人类数学直觉的边界，证明了在科学发现中结果优于形式，这标志着AI辅助科研时代的正式到来。

事件分析

此次事件揭示了当前 AI Agent 领域“推理能力”与“控制能力”的不对称性。虽然开源或新兴模型在逻辑推理上已能比肩 GPT-4，但在将推理转化为对真实操作系统（如 macOS 无障碍 API）的精准操控上，依然存在工程化差距。DeepSeek 等模型可能在代码生成和数学推理上表现优异，但针对特定终端环境的函数调用（Function Calling）微调、系统提示词工程以及错误处理机制可能尚未完善。OpenAI 通过大量的用户反馈闭环（RLHF），在处理系统级交互的边界情况时显得更加稳健。这意味着，未来的模型竞争将不仅局限于“大脑”的聪明程度，更将延伸至“手脚”的灵活性，即模型与操作系统、浏览器及各类软件生态的深度融合与适配能力。

💡 核心观点：大模型竞争维度已从单纯的“智商”比拼转向“执行”较量，OpenAI在系统交互与Agent落地上的工程壁垒短期内难以被复制。

事件分析

此事件反映了大模型应用正在从通用的文本生成向高认知负荷的科研辅助迁移。对于DeepSeek而言，能否在“Agent记忆”和长文本理解上达到甚至超越GPT-4或Kimi的水平，是其验证商业化落地能力的关键试金石。这也表明，AI Agent的开发瓶颈已从单一的逻辑推理转向了上下文管理与记忆持久化。开发者对于Auto Research工作流的探索，意味着科研辅助工具的市场正在从简单的聚合搜索转向深度内容合成，这要求模型不仅要“懂”知识，更要“记住”并“关联”知识。

💡 核心观点：自动化科研正成为大模型落地的核心战场，DeepSeek能否攻克Agent记忆难关将决定其开发者生态的粘性。

事件分析

随着 AI 编程助手在开发者工作流中的深入应用，针对这些工具的“二次开发”和生态补丁开始涌现。Claude Code 作为 Anthropic 面向开发者的 AI 代理工具，其原生终端界面在处理复杂工程时存在信息密度不足的问题。claude-code-config 项目的出现，反映了开发者对于在 AI 辅助编程环境下保持上下文感知、Git 状态可视化以及资源监控的强烈需求。

该项目的核心价值在于填补了通用 AI 终端与专业 IDE（如 VSCode）之间的体验差距。通过将 Git 状态、API 用量监控与对话流深度集成，它实际上是将 AI Agent 变为了开发环境中更紧密的一环，而非一个孤立的黑盒。从技术实现上看，利用 Shell 脚本对 JSON 配置进行幂等修改和性能优化（耗时减半），体现了开源社区在解决实际工程痛点时的高效务实。此类工具的流行预示着未来 AI 编程工具的发展趋势：不仅追求代码生成的准确率，更注重如何无缝融入现有的 GitOps 和工作流管理中，提供透明化的反馈机制。

💡 核心观点：AI 编程正从单纯的“代码生成”转向深度集成开发环境，开源生态正迅速补齐 AI 工具在状态管理与可视化方面的短板。

标签：AI智能体

Function Calling 入门: 让大模型学会调用外部工具

把 agent 做成可以崩溃、可以恢复的进程

阿里云全线云产品特惠 · 一站采购

Philipp Schmid 把 agent 代码搬进文件夹里

GEPA 分享如何用轨迹反思优化系统

Perception Agents 解决真实软件里的视觉状态

Codex 的用法正在从写代码变成分派工作

OpenAI 把 Codex 放进外层工作流

AI Engineer 2026 开场讲的是最高的 loop

只读 Agent 没变更安全，只是更会撒谎

让 Agent 会思考：规划与推理范式

置顶推荐

前沿哨所

用户发现ChatGPT对话模式疑似降智，竟自称“GPT 5.5 mini”

事件分析

开发者实测 AI 编程：仅负责 DevOps 与压测，让 AI 独立构建 Dota2 数据分析工具

事件分析

AI攻克数学难题：利用大模型推翻麦克斯韦猜想

事件分析

实测：DeepSeek 与 GPT 在浏览器控制任务中的表现差异

事件分析

探究DeepSeek在自动化科研领域的实战表现：聚焦Agent记忆与替代方案

事件分析

优化 Claude Code 体验：开发者开源状态栏与主题配置管理库

事件分析

最新文章

热门专题

热门标签

网站统计