
红杉说这就是 AGI,然后呢?
2026 年春天,红杉资本 AI Ascent 峰会上,三位合伙人 Pat Grady、Sonia 和 Constantine 轮番上台,做了一场不到 40 分钟的开场 keynote。Pat 在中间某段轻描淡写地丢出一句话——"if we may be so bold, we would say that this

2026 年春天,红杉资本 AI Ascent 峰会上,三位合伙人 Pat Grady、Sonia 和 Constantine 轮番上台,做了一场不到 40 分钟的开场 keynote。Pat 在中间某段轻描淡写地丢出一句话——"if we may be so bold, we would say that this

Andrej Karpathy 几个月前说了句话:**他从未觉得自己作为程序员这么落后过。** 说出这话的人是 OpenAI 联合创始人、前 Tesla Autopilot 负责人、AI 教育领域最会讲人话的那个人。他在红杉 AI Ascent 2026 上解释了这种落后感从哪来——2025 年 12 月,一个很清晰的

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
本文基于社区实测与官方数据,深入分析了 DeepSeek V4 Pro 在六大类内容创作中的表现。实测表明,其中文本土化能力极强,在结构化报告和文档撰写上已比肩 Claude,且拥有显著的价格优势。官方测评数据显示,DeepSeek 在办公...

选 Dense 还是选 MoE?这个问题在 2025 年之后已经不怎么争议了——大多数顶级闭源模型(GPT-4 系列、Gemini、DeepSeek-V3)都用了 MoE。但这不意味着 Dense 没用了。两种架构各有清晰的能力边界,选错架构的代价远大于选错模型大小。 Dense 模型就是传统的 Transformer
一位资深 AI 用户对 DeepSeek V4 与 Google Gemini 的写作能力进行了实测对比。测试显示,DeepSeek V4 在文风细腻度上较前代 V3 有显著提升,但在逻辑连贯性上仍存在不足,常需多次重试才能生成通顺内容。相...
近日,社区针对 DeepSeek 视觉模型进行了首轮实测,并将其与 Gemini 3.1 Pro、Kimi 等主流模型进行了横向对比。测试项目涵盖手指数量识别、军事装备细节(如直10毫米波雷达)、冷门航空知识、地图常识以及图像联想能力。结果...
AI 研究者 Aran Komatsuzieri 的一项对比实验揭示了主流大模型在处理不同语言时的成本差异。通过将同一文本输入 OpenAI、Claude、Qwen 等模型,发现 Claude 处理中文的 Token 消耗量比英文基准高出 ...
一位开发者在修复 iOS Swift 项目样式时遭遇 GPT-4.5 “滑铁卢”,经过十几轮对话仍未能解决问题,甚至一度考虑花费 100 美元订阅 Pro 版本。随后,该开发者尝试接入 DeepSeek 接口,结果仅...
近日,一项针对主流大模型手写文字提取能力的对比测试引发关注。测试对比了 Qwen 3.6 Plus、GPT、Llama 3.1 及豆包专家等多款模型。结果显示,Qwen 在识别潦草手稿时表现优异,不仅准确提取了内容,甚至自主添加了正确的概念...
一位开发者在实际测试中发现,Google 的 Gemini Flash 模型在文本写作任务中表现不佳,甚至难以生成高质量的语法填空指导指南。尽管提供了详细的思维导图和多轮提示词引导,Gemini Flash 的输出仍显逊色。令人意外的是,在...
一位开发者对比测试了 DeepSeek4 Flash 与 MiniMax 2.7 在处理具体编程需求时的表现。测试场景涉及从 GitHub 拉取代码、配置 MCP 数据库连接以及修改后台数据。结果显示,DeepSeek4 Flash 表现优...
一位同时订阅 Claude、GPT 及国产 GLM 的开发者分享实战体会:在常规的线性开发任务中,国产大模型 GLM 5.1 已能较好满足需求。然而,在修复一款 iOS 相机应用中棘手的美颜算法 Bug 时,即使经过多轮尝试,GPT-4 和...
针对复杂的WireGuard VPN与NAT端口映射难题,一项针对Claude、GPT、DeepSeek及GLM的实战测评显示,Claude Opus与Sonnet表现卓越。它们不仅能完美解决技术难点,更能主动预判潜在问题,并提出了兼容性更...
近日,有科技爱好者通过分析复杂航班历史路线的实战案例,对比了 GPT、Grok 和 Gemini 三款主流大模型的表现。测试要求模型根据两点间的历史飞行记录,推断特定日期的飞行路径及经过国家。结果显示,仅有 GPT-5.5 thinking...
这篇实战测评对比了DeepSeek V4-Pro与Claude、GPT、Gemini及GLM等主流大模型在“前端大屏展示”开发任务中的表现。作者从实际开发者的角度出发,放弃了复杂的Agent开发,转而测试各模型在处理复杂CSS布局和可视化效...
AI 推理层的 37 倍毛利:当 API 包装成护城河 先说结论:当前 AI 推理层的暴利不是技术壁垒,而是信息不对称的套利。基础推理成本约 $0.40/1M tokens,终端售价 $15/1M tokens,37.5 倍毛利不是护城河,...
Linux.do 社区用户自发整理了一份直观的性能对比图表,涵盖了 GPT、Claude、Gemini 及 DeepSeek 四大主流旗舰模型的长上下文处理能力。测试数据详细展示了各模型在 128K、256K 及 1M 等不同上下文窗口下的...
一位长期用户报告称其 Claude Pro 账户在非理想网络环境下已成功续费至第二个月,显示出服务的稳定性。该用户对比了主流 AI 产品后指出,Claude 的客户端体验、界面审美以及近期推出的“跨对话全局记忆”功能均显著优于 Gemini...
一位资深用户在对比测试中指出,DeepSeek V4 在面对无标准答案、约束条件复杂且隐蔽的开放性问题时,依然无法达到 Claude Opus 4.5/4.6 的水平。用户举例称,Opus 一轮即可解决的难题,DeepSeek 经七轮纠错花...

2026年4月18-24日 · 第28期 · 每周五发布 本周关键词:Agentic Workflows · 开源围剿 · 蒸馏摩擦 · 定价博弈 TL;DR — 30 秒看完本周 如果你只有 30 秒,记住这五件事: OpenAI 发布 ...