TL;DR
评估和安全是LLM落地的两大关键——不能衡量就无法改进,不能保护就不敢上线。BLEU/ROUGE适合机器翻译但不适合开放生成,困惑度只能评估语言建模能力;幻觉检测用语义熵,偏见测量用CrowS-Pairs;红队测试模拟攻击,差分隐私保护数据。本文从8个高频面试题入手,带你搞懂LLM评估与安全的核心技术:为什么困惑度不适合评估生成质量、如何检测和缓解幻觉、红队测试怎么做、联邦学习如何保护隐私。读完这篇,你能回答”Elo Rating和成对比较的区别”这种深度问题。
一、LLM评估的三大维度:能力、安全、效率
三大评估维度
LLM评估 = 能力评估 + 安全评估 + 效率评估
1. 能力评估
语言理解:
– 阅读理解(SQuAD、RACE)
– 自然语言推理(MNLI、SNLI)
– 常识推理(HellaSwag、PIQA)
语言生成:
– 文本生成质量
– 对话连贯性
– 创意写作能力
专业能力:
– 数学推理(GSM8K、MATH)
– 代码生成(HumanEval、MBPP)
– 多语言能力(XNLI、XCOPA)
2. 安全评估
有害内容:
– 暴力、仇恨言论
– 偏见和歧视
– 隐私泄露
鲁棒性:
– 对抗攻击抵抗力
– Prompt注入防御
– 幻觉率
3. 效率评估
推理性能:
– 延迟(Latency)
– 吞吐量(Throughput)
– 显存占用
成本:
– 训练成本
– 推理成本
– 维护成本
参考资料:HELM基准测试、OpenAI Model Spec
二、自动评估指标:BLEU vs ROUGE vs BERTScore
三种指标对比
| 指标 | 原理 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|
| BLEU | N-gram精确匹配 | 简单快速 | 忽略语义 | 机器翻译 |
| ROUGE | N-gram召回率 | 适合摘要 | 忽略语义 | 文本摘要 |
| BERTScore | 语义相似度 | 考虑语义 | 计算慢 | 开放生成 |
BLEU(Bilingual Evaluation Understudy)
核心思想:计算生成文本和参考文本的N-gram重叠
公式:
BLEU = BP × exp(Σ w_n × log p_n)
其中:
- p_n:n-gram精确率
- BP:brevity penalty(惩罚过短的生成)
示例:
参考:The cat is on the mat
生成:The cat is on the table
1-gram匹配:5/6 = 0.83
2-gram匹配:3/5 = 0.60
BLEU-2 ≈ 0.70
局限:
– 只看词汇重叠,不看语义
– “The cat is on the mat” 和 “The feline is on the rug” BLEU很低,但语义相同
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
核心思想:计算召回率(参考文本中有多少被生成文本覆盖)
变体:
– ROUGE-N:N-gram召回率
– ROUGE-L:最长公共子序列
– ROUGE-S:跳跃二元组
适用:文本摘要(关注是否覆盖关键信息)
BERTScore
核心思想:用BERT计算词向量,比较语义相似度
优势:
– “cat” 和 “feline” 语义相似,得分高
– 考虑词序和上下文
劣势:计算成本高(需要跑BERT)
参考资料:BLEU论文、BERTScore论文
三、困惑度(Perplexity):为什么不适合评估生成质量?
困惑度定义
Perplexity = exp(-1/N × Σ log P(w_i | context))
直观理解:模型对下一个词的”困惑程度”
困惑度的局限性
1. 只评估语言建模能力
模型A:困惑度10,生成"The cat sat on the mat"
模型B:困惑度15,生成"The feline rested on the rug"
困惑度说模型A更好,但模型B语义更丰富
2. 不考虑生成质量
困惑度低 ≠ 生成质量高
可能只是记住了训练数据
3. 不考虑任务目标
对话任务:需要有趣、有用
困惑度:只看概率分布
什么时候用困惑度?
适用场景:
– 比较同类模型(如GPT-2 vs GPT-3)
– 评估语言建模能力
– 预训练阶段的监控指标
不适用场景:
– 评估生成文本质量
– 对话系统评估
– 创意写作评估
参考资料:Language Model Evaluation Beyond Perplexity
四、人类评估:Elo Rating vs 成对比较
两种方法对比
| 方法 | 原理 | 优势 | 劣势 |
|---|---|---|---|
| Elo Rating | 竞技排名系统 | 动态更新、可比较多个模型 | 需要大量对比 |
| 成对比较 | 两两对比投票 | 简单直观 | 难以扩展到多模型 |
Elo Rating
原理:借鉴国际象棋排名系统
更新公式:
新Elo = 旧Elo + K × (实际得分 - 预期得分)
应用:Chatbot Arena(LMSys)
成对比较
流程:
1. 给评估者展示两个模型的输出
2. 评估者选择更好的一个
3. 统计胜率
参考资料:Chatbot Arena论文
五、幻觉检测与缓解
最新检测方法(2024-2025)
| 方法 | 类型 | 核心原理 |
|---|---|---|
| Semantic Entropy | 不确定性估计 | 语义空间熵检测 |
| SelfCheckGPT | 零资源黑盒 | 多次生成比对 |
| FActScore | 原子事实验证 | 逐一验证事实 |
缓解最佳实践
- RAG检索增强:基于检索结果回答
- Chain-of-Thought:幻觉率从53%降至23%
- DPO偏好优化:训练模型拒绝幻觉
- 引用机制:输出与源文档关联
参考资料:Nature 2024语义熵论文
六、偏见问题:如何测量和减轻模型偏见?
偏见测量方法
CrowS-Pairs:
– 成对句子对比
– 示例:”He is a doctor” vs “She is a nurse”
– 测量模型对哪个句子概率更高
StereoSet:
– 测量刻板印象
– 维度:性别、种族、职业
减轻偏见的方法
- 数据去偏:平衡训练数据
- 对抗训练:惩罚偏见输出
- 后处理:过滤有偏见的生成
参考资料:CrowS-Pairs论文
七、红队测试:对抗性攻击与防御
红队测试流程
- 攻击模拟:尝试让模型输出有害内容
- 漏洞发现:记录成功的攻击案例
- 防御加固:修复漏洞
- 迭代测试:重复上述流程
常见攻击方式
- Jailbreak(越狱):绕过安全限制
- Prompt注入:嵌入恶意指令
- 角色扮演:让模型扮演无限制角色
防御策略
- 输入过滤:检测恶意Prompt
- 输出过滤:检测有害内容
- 对抗训练:用攻击样本训练
参考资料:OpenAI红队测试报告
八、隐私保护:联邦学习、差分隐私在LLM中的应用
联邦学习
原理:数据不出本地,只传输模型更新
流程:
1. 服务器分发模型到各客户端
2. 客户端用本地数据训练
3. 客户端上传模型更新(不上传数据)
4. 服务器聚合更新
差分隐私
原理:在数据中加入噪声,保护个体隐私
应用:训练时在梯度中加噪声
参考资料:联邦学习综述
小结
本文从8个高频面试题入手,系统梳理了LLM评估与安全的核心技术:
- 评估三维度:能力+安全+效率
- 自动指标:BLEU适合翻译、ROUGE适合摘要、BERTScore考虑语义
- 困惑度局限:只评估语言建模,不适合生成质量
- 人类评估:Elo Rating动态排名、成对比较简单直观
- 幻觉检测:语义熵、SelfCheckGPT、FActScore
- 偏见测量:CrowS-Pairs、StereoSet
- 红队测试:攻击模拟+漏洞发现+防御加固
- 隐私保护:联邦学习数据不出本地、差分隐私加噪声
下一篇预告:特殊架构篇——MoE、多模态、Diffusion怎么用?






程序员数学扫盲课
AI周刊:大模型、智能体与产业动态追踪
Claude Code 全体系指南:AI 编程智能体实战
Karpathy神经网络零基础课程
最新评论
开源的AI对话监控面板很实用,正好团队在找这类工具。准备试用一下。
折叠屏市场确实在升温,不过售罄也可能是备货策略。期待看到实际销量数据。
从磁盘I/O角度解释B树的设计动机,这个切入点很好。终于理解为什么数据库不用二叉树了。
IT术语转换确实是个痛点,之前用搜狗总是把技术词汇转成奇怪的词。智谱这个方向值得期待。
这个工具结合LLM和搜索API的思路很有意思,正好解决了我在做知识管理时遇到的问题。请问有没有部署文档?
这个漏洞确实严重,我们团队上周刚遇到类似问题。建议补充一下如何检测现有项目是否受影响的方法。
从简单规则涌现复杂性这个思路很有意思,让我想起元胞自动机。不过数字物理学在学术界争议还挺大的。
我也遇到了指令跟随变差的问题,特别是多轮对话时容易跑偏。不知道是模型退化还是负载优化导致的。