一位开发者利用 llama.cpp 成功将 35B 参数规模的 Qwen 3.6-A3B 模型部署到仅 11GB 显存的 RTX 2080Ti 显卡上。得益于 IQ1_M 超强量化技术,该模型实现了 128k 长上下文处理能力,单并发速度达 67 TPS。实测显示,其在 pi-coding-agent 中表现稳定,性能可媲美云端 Step 3.5 Flash,显著优于同规模的 27B 版本。这一案例展示了极致量化技术如何挖掘旧硬件潜力,为关注隐私和成本的用户提供了高性价比的本地大模型解决方案。
原文链接:Linux.do








AI周刊:大模型、智能体与产业动态追踪
程序员数学扫盲课
冲浪推荐:AI工具与技术精选导航