国产算力实战:16张昇腾910B4能否撑起企业级AI编程大模型?
随着国产化替代进程加速,企业利用16张华为昇腾910B4显卡部署内网AI编程大模型成为关注焦点。该话题探讨了在非英伟达算力底座上,DeepSeek、GLM、Qwen等主流大模型的适配情况与性能表现,分析了量化版本与原始权重模型在效果与资源占...
随着国产化替代进程加速,企业利用16张华为昇腾910B4显卡部署内网AI编程大模型成为关注焦点。该话题探讨了在非英伟达算力底座上,DeepSeek、GLM、Qwen等主流大模型的适配情况与性能表现,分析了量化版本与原始权重模型在效果与资源占...
随着大模型热潮兴起,昂贵的专业算力卡成为入门门槛。近日,一位极客玩家展示了其低成本DIY方案:利用双路至强E5-2686 v4处理器及特种主板,计划搭配四张二手显卡(如NVIDIA Tesla P100)组建本地算力池,旨在运行70B参数的...

官方 Claude Code 又涨价又 KYC,封号了还得自己重新折腾环境?ReClaude 拼车了解一下——200 / 400 / 800 / 1600 四档随便挑,账号、风控、切换全平台托管,触发风控自动换号不计次。本地 daemon 三行命令装好,Claude Code / Codex / Cursor / MCP 原来怎么用还怎么用。我自己跑 4 人车那档,性价比最平衡。
在国产化信创环境下,技术社区针对海光K100显卡进行了大模型部署实测。结果显示,目前主流的GPTQ-Int4和AWQ量化版本,由于依赖CUDA生态或vLLM与ROCm的兼容性问题,均无法正常运行。相比之下,全精度的BF16/FP16模型(如...
随着大模型落地场景的多元化,选择合适的推理框架已成为工程落地的关键。本指南针对2026年的技术趋势,为不同场景提供了精准的选型建议:云端高性能与并发场景分别首推 TensorRT-LLM 与 vLLM;针对新兴的 Agent 应用,SGLa...
随着企业对生成式AI的需求激增,如何安全、合规地部署Claude等大模型成为技术圈的热点话题。近日有从业者反馈,尽管市面上存在CPA、sub2api、crs等多种API中转方案用于实现账号共享,但这些非官方工具普遍存在极高的封号风险,难以满...
本文详细记录了在内网离线环境下,利用8张华为昇腾910B4 NPU卡部署Qwen3.5-122B大模型的全过程。作者分享了针对ARM架构的Docker镜像选择与传输技巧,提供了完整的docker-compose配置模板,并重点解决了vLLM...
本文详细记录了在 Mac mini 上利用 Docker 部署开源 AI 助手 OpenClaw 的完整流程。文章不仅涵盖了基础环境搭建、镜像源优化与网关配置,还深入探讨了如何接入 Qwen、Mistral 等大模型及配置记忆模块。此外,作...
一位技术爱好者在社区分享称,其使用 Ollama 框架在 12GB 显存、32GB 内存的硬件配置下,成功流畅运行了 26B 参数规模的大模型(原文标注为 Gemma4:26B,可能指代基于 Gemma 2 的相关版本)。这一实测案例表明,...
本文详细记录了在魔改RTX 4090 48G显卡上,利用SGLang框架部署Qwen3.5-27B-FP8及35B-A3B模型的实战经验。测试表明,在WSL2环境下,该配置实现了单路50-60 tokens/s的处理速度,且KV缓存表现完美...
针对国内企业访问海外大模型的痛点,社区发起了关于利用开源项目Newapi搭建企业级API网关的可行性讨论。由于国内网络限制,企业往往通过中转站调用ChatGPT、Claude等模型,但这面临着严重的账号封禁风险和稳定性隐患,难以满足企业级的...