大模型使用手册:从GPT到国产全家桶
一、问题
选型困境:
– 市面上几十个大模型,怎么选?
– GPT-4贵,国产便宜,性能差多少?
– 写代码用哪个?翻译用哪个?
核心疑问:不同模型的能力边界在哪?
二、方案
大模型选型三要素:
1. 能力:文本生成/代码/推理/多模态
2. 规格:Token上限/参数量/速度
3. 成本:API价格/开源可部署
生活比喻:
– GPT-4:瑞士军刀,啥都能干,就是贵
– Claude:写作专家,长文本之王
– DeepSeek:性价比之王,国产之光
– Llama:开源基座,自己部署
三、核心能力
3.1 四大基础能力
能力1:文本生成
# 示例:写营销文案
prompt = "为AI编程助手写一段50字推广文案"
response = llm.generate(prompt)
# 输出:"让AI成为你的编程搭档,实时代码补全、Bug修复、架构建议,效率提升10倍"
能力2:语义理解
# 示例:情感分析
text = "这个产品太垃圾了,完全不能用"
sentiment = llm.analyze_sentiment(text)
# 输出:{"sentiment": "negative", "score": 0.92}
能力3:知识问答
# 示例:专业知识
question = "什么是CAP定理?"
answer = llm.qa(question)
# 输出:"CAP定理指分布式系统无法同时满足一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)"
能力4:代码辅助
# 示例:代码生成
prompt = "写一个Python快速排序"
code = llm.generate_code(prompt)
# 输出:
def quicksort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quicksort(left) + middle + quicksort(right)
四、模型规格
4.1 Token上限对比
| 模型 | Token上限 | 适用场景 |
|---|---|---|
| GPT-4 Turbo | 128K | 长文档分析 |
| Claude 3.5 Sonnet | 200K | 代码库理解 |
| Gemini 1.5 Pro | 1M | 视频/书籍分析 |
| DeepSeek-V3 | 64K | 通用对话 |
| QwQ-32B | 32K | 推理任务 |
| Llama 3.1 | 128K | 开源部署 |
Token计算:
– 中文:1个字 ≈ 1.5 token
– 英文:1个单词 ≈ 1.3 token
– 代码:1行 ≈ 10-20 token
示例:
# 一篇3000字文章
tokens = 3000 * 1.5 = 4500 tokens
# GPT-4 Turbo定价
input_cost = 4500 * $0.01 / 1000 = $0.045
output_cost = 1000 * $0.03 / 1000 = $0.03
total = $0.075 # 约0.5元人民币
4.2 推理模型专项
什么是推理模型:输出思考过程的模型
# 普通模型
prompt = "9.11和9.9哪个大?"
response = gpt4.generate(prompt)
# 输出:"9.11更大" # ❌ 错误
# 推理模型
response = deepseek_r1.generate(prompt)
# 输出:
# 【思考过程】
# 1. 9.11 = 9 + 0.11
# 2. 9.9 = 9 + 0.9
# 3. 0.9 > 0.11
# 4. 所以 9.9 > 9.11
# 【答案】9.9更大 # ✅ 正确
推理模型对比:
| 模型 | 参数量 | 推理Token | 准确率 |
|---|---|---|---|
| DeepSeek-R1 | 671B | 平均5K | 96% |
| QwQ-32B | 32B | 平均3K | 89% |
| o1-preview | 未知 | 平均10K | 98% |
适用场景:
– ✅ 数学题、逻辑推理、代码Debug
– ❌ 简单对话(浪费Token)
五、全球模型分类
5.1 按开发者分类
美国阵营:
– OpenAI:GPT-4、GPT-4 Turbo、o1
– Anthropic:Claude 3.5 Sonnet、Claude 3 Opus
– Google:Gemini 1.5 Pro、Gemini 2.0 Flash
– Meta:Llama 3.1(开源)
中国阵营:
– 字节:豆包(Doubao)
– 阿里:通义千问(Qwen)
– 百度:文心一言(ERNIE)
– 深度求索:DeepSeek-V3
– 智谱:GLM-4
5.2 按开源程度分类
闭源商业:
– GPT-4、Claude、Gemini
– 优势:性能最强
– 劣势:贵、数据隐私风险
开源商业:
– Llama 3.1、Qwen、DeepSeek
– 优势:可自部署、免费
– 劣势:需要GPU资源
完全开源:
– Mistral、Falcon
– 优势:可商用、可修改
– 劣势:性能略弱
5.3 按参数量分类
| 规模 | 参数量 | 代表模型 | 部署成本 |
|---|---|---|---|
| 小型 | <7B | Llama 3.2 3B | 1张RTX 4090 |
| 中型 | 7B-70B | Llama 3.1 70B | 4张A100 |
| 大型 | >100B | GPT-4、DeepSeek-V3 | 云端API |
选型建议:
– 个人学习:7B模型(Llama 3.2)
– 企业部署:70B模型(Qwen 72B)
– 生产环境:云端API(GPT-4/Claude)
六、垂直领域模型
6.1 代码专用
| 模型 | 特点 | 适用语言 |
|---|---|---|
| GitHub Copilot | 实时补全 | 全语言 |
| CodeLlama | 开源免费 | Python/C++/Java |
| DeepSeek-Coder | 中文注释友好 | 全语言 |
6.2 医疗专用
- MedPaLM 2(Google):医学问答
- BioGPT(Microsoft):生物医学文献
- 华佗GPT(国产):中医诊断
6.3 法律专用
- LawGPT:法律咨询
- ChatLaw:中国法律检索
6.4 多模态
| 模型 | 能力 | 特点 |
|---|---|---|
| GPT-4V | 图像理解 | 识别图表/OCR |
| Gemini 1.5 Pro | 视频分析 | 1小时视频理解 |
| DALL-E 3 | 文生图 | 高质量图像 |
| Whisper | 语音转文字 | 99种语言 |
七、选型决策树
开始
├─ 需要开源部署?
│ ├─ 是 → Llama 3.1 / DeepSeek-V3
│ └─ 否 → 继续
├─ 预算充足?
│ ├─ 是 → GPT-4 Turbo / Claude 3.5
│ └─ 否 → 继续
├─ 主要用途?
│ ├─ 写代码 → GitHub Copilot / DeepSeek-Coder
│ ├─ 长文本 → Claude 3.5(200K) / Gemini 1.5(1M)
│ ├─ 推理任务 → DeepSeek-R1 / o1
│ ├─ 中文优化 → 通义千问 / 文心一言
│ └─ 多模态 → GPT-4V / Gemini 1.5 Pro
八、小结
核心要点:
1. 四大能力:文本生成、语义理解、知识问答、代码辅助
2. Token上限:GPT-4(128K)、Claude(200K)、Gemini(1M)
3. 推理模型:DeepSeek-R1、QwQ-32B,输出思考过程
4. 开源选择:Llama 3.1、DeepSeek-V3可自部署
选型建议:
– 通用场景:GPT-4 Turbo(性能) / DeepSeek-V3(性价比)
– 代码场景:GitHub Copilot(实时) / DeepSeek-Coder(开源)
– 长文本:Claude 3.5(200K) / Gemini 1.5(1M)
– 推理任务:DeepSeek-R1 / o1-preview
– 中文优化:通义千问 / 文心一言
成本对比(1M token):
– GPT-4 Turbo:$10
– Claude 3.5:$3
– DeepSeek-V3:$0.27
– 开源自部署:$0(仅GPU成本)
参考资料:
– OpenAI官方文档:https://platform.openai.com/docs
– Anthropic Claude文档:https://docs.anthropic.com
– DeepSeek技术报告:https://github.com/deepseek-ai
– Llama模型库:https://huggingface.co/meta-llama






程序员数学扫盲课
AI周刊:大模型、智能体与产业动态追踪
Claude Code 全体系指南:AI 编程智能体实战
Karpathy神经网络零基础课程
最新评论
开源的AI对话监控面板很实用,正好团队在找这类工具。准备试用一下。
折叠屏市场确实在升温,不过售罄也可能是备货策略。期待看到实际销量数据。
从磁盘I/O角度解释B树的设计动机,这个切入点很好。终于理解为什么数据库不用二叉树了。
IT术语转换确实是个痛点,之前用搜狗总是把技术词汇转成奇怪的词。智谱这个方向值得期待。
这个工具结合LLM和搜索API的思路很有意思,正好解决了我在做知识管理时遇到的问题。请问有没有部署文档?
这个漏洞确实严重,我们团队上周刚遇到类似问题。建议补充一下如何检测现有项目是否受影响的方法。
从简单规则涌现复杂性这个思路很有意思,让我想起元胞自动机。不过数字物理学在学术界争议还挺大的。
我也遇到了指令跟随变差的问题,特别是多轮对话时容易跑偏。不知道是模型退化还是负载优化导致的。