云聚 AI Token Plan 满 199 减 35 元
AI编程 · 架构思考 · 技术人生
DigitalOcean 开发者云

旧显卡焕发新生:2080Ti成功部署Qwen 3.6 35B大模型,实测67 TPS与128k上下文

云聚 AI Token Plan 满 199 减 35 元

一位开发者利用 llama.cpp 成功将 35B 参数规模的 Qwen 3.6-A3B 模型部署到仅 11GB 显存的 RTX 2080Ti 显卡上。得益于 IQ1_M 超强量化技术,该模型实现了 128k 长上下文处理能力,单并发速度达 67 TPS。实测显示,其在 pi-coding-agent 中表现稳定,性能可媲美云端 Step 3.5 Flash,显著优于同规模的 27B 版本。这一案例展示了极致量化技术如何挖掘旧硬件潜力,为关注隐私和成本的用户提供了高性价比的本地大模型解决方案。

原文链接:Linux.do

阿里云 OPC 一人公司创业装备库
阿里云函数计算 一键部署 AI 大模型
赞(2)
未经允许不得转载:Toy's Tech Notes » 旧显卡焕发新生:2080Ti成功部署Qwen 3.6 35B大模型,实测67 TPS与128k上下文
ReClaude Claude Code 合租
阿里云函数计算 一键部署 AI 大模型

Claude Code 合租 · KYC 封号全托管

官方又涨价又 KYC,封号还得自己重新折腾?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。

上车 4 人车 400/月查看四档套餐