本文详细记录了在搭载 M1 Max 芯片的 Mac 上,利用 llama.cpp 和 MTP(多令牌预测)技术搭建本地 AI 编程代理的全过程。作者旨在构建一套快速、支持多模态(图片输入)且完全离线的编程辅助系统。测试中,作者使用 Gemma 4 26B 模型配合 Q8 级别的 MTP 草稿模型,通过 Metal 加速运行。基准测试显示,启用 MTP 推测解码后,生成速度从 58.2 tokens/秒提升至 72.2 tokens/秒,提速约 24%。相比之下,专为 Mac 优化的 MLX 框架在该测试集下表现不如 llama.cpp。此外,作者还配置了多模态投影器(mmproj),使代理能够识别截图。虽然 Qwen 3.6 35B 模型在代码质量上表现更佳,但其 55 tokens/秒的生成速度略逊于 Gemma。最终,通过 llama-server 提供兼容 OpenAI API 的本地服务,配合 Pi 编程代理,实现了流畅的本地化代码生成与图像分析工作流。
事件分析
💡 核心观点:MTP 推测解码技术与成熟推理框架的结合,让消费级 Mac 具备了流畅运行高性能本地 AI 编程 Agent 的能力,标志着端侧 AI 生态正走向成熟。
原文链接:Hacker News







AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航
Claude Code 全体系指南:AI 编程智能体实战