
榨干每块显存:LLM 底层显存优化
作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

作者:toy 一个 Agent 工作流,最终的性能瓶颈往往不在路由逻辑、工具调用,而在 LLM 推理本身。同样的模型,同样的硬件,不同的推理框架可以带来 10 倍以上的吞吐差距。这篇文章讨论推理服务的底层机制,以及三个主流框架:vLLM、S...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

作者:toy 一、为什么需要微调 Prompt Engineering 的三类失效 用 Prompt 调教通用模型,是大多数 Agent 项目的第一站。这条路走得顺时,能省掉大量工程复杂度。但在三类场景下,它会系统性失效。 第一类是领域术语...

作者:toy 一、Agent 为什么需要记忆 无状态 LLM 的根本局限 把一个 LLM 想象成一位每隔五分钟就会彻底失忆的顾问。你在上午告诉他你的背景、偏好、当前项目的约束条件,五分钟后他已经一无所知,对话只能从头开始。这不是比喻,而是 ...

作者:toy 一、工具调用是什么:让模型伸手摸真实世界 从纯文本生成到”有手有脚” 大语言模型在工具调用出现之前,本质上是一台极其复杂的文字处理机器。你问它”今天北京的 PM2.5 是多少”,...

作者:toy 一、为什么需要 Agent 框架 从”手写循环”到框架 构建一个最简单的 ReAct Agent,大概需要五十行 Python:一个 while 循环,调 LLM,解析输出,调工具,把结果塞回上下文,再...

作者:toy 大多数人第一次看到 ChatGPT 流式输出时,误以为模型在”思考”。实际上它在做一件更机械的事:每次预测下一个 token 的概率分布,然后采样。这个过程里没有回溯,没有规划,没有对全局的感知。一个字...

作者:toy 一、智能体不是聊天机器人 有一个误解在 2025 年前后反复出现:只要套上”AI Agent”的名字,就算 Agent 了。实则不然。一个每次都从零开始的对话框,无论填了多么精心的 system pro...
近期,有技术社区成员在测试中发现,谷歌浏览器内置的AI搜索功能存在明显的指令优先级漏洞。测试显示,用...
来自开发者社区的消息显示,小米旗下的大模型系列“MiMo”近期更新了 API 接口调用额度,并对外公...
一位开发者在技术社区分享了利用多智能体协作平台实现全自动代码调试与构建的实践经验。在解决GitHub...
Zig编程语言创建者Andrew Kelley宣布对Zig的构建系统进行了重大架构重构,旨在显著提升...
一名开发者在技术社区分享了构建 AI Agent 时面临的严峻挑战。尽管在 Skill(技能)配置中...
针对大模型在长程对话中普遍出现的“降智”现象,一位技术社区用户分享了一种基于显式约束的检测与缓解方案...
全球知名微电子研究中心 Imec 近日展示了利用高数值孔径极紫外(High-NA EUV)光刻技术制...
Linux.do社区开发者分享了针对Claude Code优化的API自动化测试编写开源项目。该项目...
一位专注于 LaTeX 论文修改的开发者在技术社区分享了关于 Claude Code CLI(简称 ...
随着Claude、ChatGPT、Gemini等大模型代码生成能力的指数级跃升,一种被称为“Vibe...
近日,一个名为“clawd.rip”的趣味网站在技术社区迅速走红,该网站专门致力于收集和展示大模型 ...
随着生成式AI技术的快速迭代,AI漫剧作为一种新兴的内容形式,正逐渐从概念验证走向大规模商业化落地。...