
榨干每块显存:LLM 底层显存优化
作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

作者:toy GPU 显存是 LLM 推理与训练的硬约束,不是软性资源。当一个 70B 参数模型以 BF16 格式加载时,光是参数本身就需要约 140GB,单张 H100 的 80GB 显存根本装不下。工程师的任务不是抱怨硬件贵,而是理解显...

作者:toy 一、为什么需要 Agent 框架 从”手写循环”到框架 构建一个最简单的 ReAct Agent,大概需要五十行 Python:一个 while 循环,调 LLM,解析输出,调工具,把结果塞回上下文,再...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。

自然语言天生有歧义。 "The detective followed the spy with binoculars." 这句话有两个完全合理的理解:侦探拿着望远镜跟踪间谍,或者间谍带着望远镜刚好被侦探跟上了。人脑能瞬间意识到两种可能,但早期的 AI 模型做不到——它只会 picks up 其中一种,另一种直接丢掉。

软件开发里,大家最熟悉的词可能还是 agent。 但最近两年,另一个词开始频繁冒出来:harness。 这个词不好翻。按字面,它是“安全带”或者“束具”。不过放到 AI 工程里,我觉得它更像一层“驯化外壳”——不是替代模型,而是把一个不稳定、不可预测、还经常会撒谎的模型,拴到一个稳定、可验证、可以控的运行环境上。 这篇
本文介绍了一种通过修改Codex配置文件,实现Auth层与Model层解耦的技术方案。用户可在保留ChatGPT账号登录态及Plus权益的同时,将底层大模型调用接口替换为支持OpenAI协议的第三方API。该方法通过修改`auth.json...
随着AI Agent的兴起,软件工程流程正面临重塑。一位开发者在实践中发现,后端开发采用“文档先行、测试其次、最后开发”的模式,配合明确的任务拆解(Task Spec),能有效利用AI实现高效且安全的编码。然而,当试图将这一逻辑套用到前端开...
本文详细介绍了利用 NewAPI 和 CC Switch 作为中间层,将 OpenCode 提供的免费 DeepSeek-V4-Flash-Free 模型成功接入 Anthropic 官方开发工具 Claude Code 的完整流程。文章重...
本文详细介绍了如何配置 Codex 手机远程控制功能以使用 OpenAI 第三方 API。原本该功能仅限 ChatGPT 账号登录用户使用,通过修改 `config.toml` 删除强制认证参数,并在 `.codex` 目录下新建包含 `O...
AI 推理平台硅基流动近日加强合规管控,未完成实名认证的用户与组织 API 请求限制已调整为 10 RPM,且欠费或未认证用户将被停止服务。平台规定,自 2026 年 5 月 15 日起,未实名账户将彻底无法使用平台功能。此外,平台将历史赠...
随着AI智能体技术的普及,开发者正面临工具碎片化的挑战。近期社区讨论指出,虽然OpenClaw、Hermes、Claude Code及Codex等工具在代码生成和自动化任务上各有所长,但缺乏一个统一的“中央大脑”架构来协调它们工作。开发者迫...