系列导航
- 第一篇:破除”套壳”迷思
- 第二篇:代理的真实价值(本篇)
- 第三篇:Meta 的终局
一、开场:能力过剩的时代
你有没有想过这个问题:为什么 ChatGPT 能写代码,却写不出一个能自己跑代码的程序?
这就是”能力过剩”的本质。
模型已经足够聪明,能理解你的需求、规划执行步骤、甚至自我纠错。但它缺少一个东西:一个安全、可靠、可扩展的执行环境。
Manus 的三大绝活,就是在解决这个问题。
二、绝活一:每个人拥有一台云端计算机
这是 Manus 最本质的差异化特征。
2.1 不是聊天窗口,是真正的操作系统
当你启动 Manus 时,系统会在云端毫秒级启动一个 Linux 沙盒环境。
这不是一个受限的聊天窗口。这是一个完整的操作系统。
Manus 拥有 Root 权限,可以:
– 安装软件
– 运行 Shell 脚本
– 管理文件系统
– 编译代码
– 甚至创建数据库
换句话说,Manus 的能力边界不再受限于开发者预置的工具(比如”计算器”或”天气插件”),而是受限于计算机科学本身的边界。
2.2 即时扩展能力
假设 Manus 需要一个特定的 Python 库来解析复杂的 PDF 表格。
普通 Agent:只能用预置的工具,无法处理。
Manus:直接在沙盒中运行 pip install camelot-py,即时扩展能力。
这意味着 Manus 不是一个”固定功能集”的工具,而是一个图灵完备的计算环境。
2.3 安全隔离与大规模编排
但这里有个问题:让 AI 编写并执行任意代码是极度危险的。可能导致注入攻击、资源滥用、甚至系统崩溃。
Manus 怎么解决的?
它构建了一套大规模的虚拟化基础设施,能够安全地编排数以万计的临时微虚拟机(MicroVMs)。这种技术(可能类似于 Firecracker MicroVMs)保证了:
– 每个用户的环境完全隔离
– 任务结束后立即销毁
– 既保证了灵活性,又确保了安全性
2.4 “广度研究”:并行计算的威力
基于这一强大的 VM 基础设施,Manus 推出了名为”广度研究(Wide Research)”的功能。
场景:用户要求”研究财富 500 强每一家公司的 AI 战略”。
普通 Agent:尝试串行处理(1 到 500),耗时极长,容易出错。
Manus:动态衍生出多个子 Agent,每个子 Agent 分配独立的计算资源,并行处理任务子集。
这本质上是在利用云计算的弹性来弥补模型速度的限制。
三、绝活二:CodeAct——从 JSON 到 Python 的跃迁
这是一个被低估但至关重要的技术细节。
3.1 传统”工具调用”的局限
目前主流的 Agent 框架(比如 OpenAI Assistants API)使用”函数调用(Function Calling)”模式。
工作流是这样的:
1. 模型思考
2. 输出 JSON 格式的工具参数(如 {"tool": "browser", "query": "Meta stock"})
3. 系统解析 JSON
4. 调用外部 API
5. 返回结果给模型
缺陷在哪?
这种模式极其脆弱。模型必须严格遵循 JSON 语法,且无法在单次交互中处理复杂的逻辑(比如循环、条件判断)。
如果需要批量处理 100 个文件,模型可能需要进行 100 次 API 交互。效率极低,容易出错。
3.2 CodeAct 的优势
Manus 让模型直接编写并执行 Python 代码作为行动手段。
例如,用户说:”遍历当前目录下的所有 Excel 文件,读取第三列数据,计算平均值,并绘制图表。”
Manus 的模型不是输出 JSON,而是写一段 Python 脚本:
import pandas as pd
import matplotlib.pyplot as plt
import os
files = [f for f in os.listdir('.') if f.endswith('.xlsx')]
all_data = []
for file in files:
df = pd.read_excel(file)
all_data.extend(df.iloc[:, 2].tolist())
avg = sum(all_data) / len(all_data)
plt.plot(all_data)
plt.axhline(y=avg, color='r', linestyle='--')
plt.savefig('result.png')
这一整套复杂的逻辑可以在一个代码块中完成,由 Python 解释器负责精确执行。
3.3 自我修正的闭环
如果代码报错,Python 解释器会返回精确的 Traceback 错误信息。
模型读懂错误信息后,可以像程序员一样 Debug 并重写代码。
这种闭环极大地提升了任务成功率。
数据证明:研究表明,CodeAct 架构在复杂任务上的成功率比传统方法高出 20% 以上。
四、绝活三:上下文工程——如何处理海量数据而不”遗忘”
“上下文窗口”是 AI 最昂贵的资源。
Manus 团队在”上下文工程”上进行了极深的技术堆栈优化。
4.1 文件系统即记忆
Manus 并不试图把所有历史信息都塞进上下文窗口。
它利用 VM 的文件系统作为无限的外挂记忆。
场景:Agent 需要阅读一份 500 页的财报。
普通 Agent:试图把 500 页内容 Token 化填入窗口,导致窗口爆炸或”迷失中间”现象。
Manus:把财报保存为 /data/report.pdf。模型在上下文中只看到文件路径。当需要回答”第三季度营收”时,模型编写代码去搜索读取文件中的特定段落。
意义:这种”隔离上下文”策略,使得 Manus 能够处理海量数据而不降低推理性能。
模仿了人类使用资料(查阅而非背诵)的方式。
4.2 KV-Cache 命中率优化
在长达数十步的 Agent 交互中,重复计算历史 Token 会带来巨大的延迟和成本。
Manus 通过严格的前缀稳定性(Stable Prefixes)和仅追加(Append-Only)策略,最大化了底层推理引擎的 KV-Cache 命中率。
技术细节:即使是一个 Token 的微小变化也会导致后续 Cache 失效。
Manus 在系统 Prompt 设计上极度克制,确保静态指令区与动态交互区的严格隔离,从而实现了极高的响应速度和更低的推理成本。
五、对标竞品:Manus vs. OpenAI Operator vs. Devin
现在你可能想问:那 OpenAI 的 Operator 呢?Google 的 Gemini Agent 呢?
让我们做个横向对比。
5.1 Manus vs. OpenAI Operator
早期评测显示,Operator 虽然背靠 GPT-4o,但在复杂长程任务上表现不佳。
它经常需要用户确认,且难以生成持久化的成果(比如网页无法打开)。
相比之下,Manus 由于拥有文件系统和 Python 解释器,能够生成并托管完整的多页面网站或交互式图表。
交付物是”实体”而非”截图”。
5.2 Manus vs. Devin
Devin 是垂直领域的王者(编程),但 Manus 是通用领域的霸主。
对于 Meta 的广泛用户群(中小企业主、创作者、普通消费者)而言,一个能帮忙”制定旅行计划并预订酒店”或”整理税务发票”的 Manus,比一个只会写代码的 Devin 更有价值。
5.3 GAIA Benchmark 表现
Manus 在 GAIA(General AI Assistants)基准测试中取得了 State-of-the-Art(SOTA)的成绩。
GAIA 的设计初衷就是为了测试 Agent 在现实世界中的工具使用和多模态推理能力。
Manus 的优异表现证明了其”虚拟机 + 代码”架构在解决非结构化现实问题上的优越性。
六、为什么这三大绝活不可替代
你可能还在想:那如果 Claude Opus 4.5 或 GPT-5.2 变得更聪明,是不是就能自己做这些事了?
答案是:不能。 而且这不是能力问题,是架构问题。
模型再聪明,也只是一个概率性的文本预测引擎。它无法:
– 安全地执行任意代码
– 管理长程状态
– 处理大规模并行任务
– 从错误中自我修正
这些能力需要基础设施,而不是更大的参数。
Manus 的三大绝活,正是这套基础设施的核心。
七、数据的力量
还有一个被忽视的价值:数据。
Manus 已经处理了 147 万亿 Token 的 Agent 交互数据。
这不仅仅是聊天记录,而是“目标 → 规划 → 代码 → 调试 → 成功”的完整执行链条。
这种数据在公开网络上无法获取。
这是 OpenAI 开发 o1(Strawberry)模型的核心秘密。
现在 Meta 通过收购 Manus 也掌握了这一资源。
八、下一篇预告
现在你知道了 Manus 的三大绝活。
但你可能还想知道:Meta 为什么要收购它?这背后的战略意图是什么?
下一篇,我会讲:
– Meta 的短板:有”脑”无”手”
– Alexandr Wang 与”过程数据”的金矿
– 2026 年的”数字员工”时代
参考链接
– Manus Joins Meta for Next Era of Innovation
– Meta to Acquire Startup Manus – Bloomberg








程序员数学扫盲课
AI周刊:大模型、智能体与产业动态追踪
Claude Code 全体系指南:AI 编程智能体实战
Karpathy神经网络零基础课程
最新评论
开源的AI对话监控面板很实用,正好团队在找这类工具。准备试用一下。
折叠屏市场确实在升温,不过售罄也可能是备货策略。期待看到实际销量数据。
从磁盘I/O角度解释B树的设计动机,这个切入点很好。终于理解为什么数据库不用二叉树了。
IT术语转换确实是个痛点,之前用搜狗总是把技术词汇转成奇怪的词。智谱这个方向值得期待。
这个工具结合LLM和搜索API的思路很有意思,正好解决了我在做知识管理时遇到的问题。请问有没有部署文档?
这个漏洞确实严重,我们团队上周刚遇到类似问题。建议补充一下如何检测现有项目是否受影响的方法。
从简单规则涌现复杂性这个思路很有意思,让我想起元胞自动机。不过数字物理学在学术界争议还挺大的。
我也遇到了指令跟随变差的问题,特别是多轮对话时容易跑偏。不知道是模型退化还是负载优化导致的。