大模型面试100问06：评估与安全篇

智谱 GLM，支持多语言、多任务推理。从写作到代码生成，从搜索到知识问答，AI 生产力的中国解法。

TL;DR

评估和安全是LLM落地的两大关键——不能衡量就无法改进，不能保护就不敢上线。BLEU/ROUGE适合机器翻译但不适合开放生成，困惑度只能评估语言建模能力；幻觉检测用语义熵，偏见测量用CrowS-Pairs；红队测试模拟攻击，差分隐私保护数据。本文从8个高频面试题入手，带你搞懂LLM评估与安全的核心技术：为什么困惑度不适合评估生成质量、如何检测和缓解幻觉、红队测试怎么做、联邦学习如何保护隐私。读完这篇，你能回答”Elo Rating和成对比较的区别”这种深度问题。

一、LLM评估的三大维度：能力、安全、效率

三大评估维度

LLM评估 = 能力评估 + 安全评估 + 效率评估

1. 能力评估

语言理解：
– 阅读理解（SQuAD、RACE）
– 自然语言推理（MNLI、SNLI）
– 常识推理（HellaSwag、PIQA）

语言生成：
– 文本生成质量
– 对话连贯性
– 创意写作能力

专业能力：
– 数学推理（GSM8K、MATH）
– 代码生成（HumanEval、MBPP）
– 多语言能力（XNLI、XCOPA）

2. 安全评估

有害内容：
– 暴力、仇恨言论
– 偏见和歧视
– 隐私泄露

鲁棒性：
– 对抗攻击抵抗力
– Prompt注入防御
– 幻觉率

3. 效率评估

推理性能：
– 延迟（Latency）
– 吞吐量（Throughput）
– 显存占用

成本：
– 训练成本
– 推理成本
– 维护成本

参考资料：HELM基准测试、OpenAI Model Spec

二、自动评估指标：BLEU vs ROUGE vs BERTScore

三种指标对比

指标	原理	优势	劣势	适用场景
BLEU	N-gram精确匹配	简单快速	忽略语义	机器翻译
ROUGE	N-gram召回率	适合摘要	忽略语义	文本摘要
BERTScore	语义相似度	考虑语义	计算慢	开放生成

BLEU（Bilingual Evaluation Understudy）

核心思想：计算生成文本和参考文本的N-gram重叠

公式：

BLEU = BP × exp(Σ w_n × log p_n)

其中：
- p_n：n-gram精确率
- BP：brevity penalty（惩罚过短的生成）

示例：

参考：The cat is on the mat
生成：The cat is on the table

1-gram匹配：5/6 = 0.83
2-gram匹配：3/5 = 0.60
BLEU-2 ≈ 0.70

局限：
– 只看词汇重叠，不看语义
– “The cat is on the mat” 和 “The feline is on the rug” BLEU很低，但语义相同

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

核心思想：计算召回率（参考文本中有多少被生成文本覆盖）

变体：
– ROUGE-N：N-gram召回率
– ROUGE-L：最长公共子序列
– ROUGE-S：跳跃二元组

适用：文本摘要（关注是否覆盖关键信息）

BERTScore

核心思想：用BERT计算词向量，比较语义相似度

优势：
– “cat” 和 “feline” 语义相似，得分高
– 考虑词序和上下文

劣势：计算成本高（需要跑BERT）

参考资料：BLEU论文、BERTScore论文

三、困惑度（Perplexity）：为什么不适合评估生成质量？

困惑度定义

Perplexity = exp(-1/N × Σ log P(w_i | context))

直观理解：模型对下一个词的”困惑程度”

困惑度的局限性

1. 只评估语言建模能力

模型A：困惑度10，生成"The cat sat on the mat"
模型B：困惑度15，生成"The feline rested on the rug"

困惑度说模型A更好，但模型B语义更丰富

2. 不考虑生成质量

困惑度低 ≠ 生成质量高
可能只是记住了训练数据

3. 不考虑任务目标

对话任务：需要有趣、有用
困惑度：只看概率分布

什么时候用困惑度？

适用场景：
– 比较同类模型（如GPT-2 vs GPT-3）
– 评估语言建模能力
– 预训练阶段的监控指标

不适用场景：
– 评估生成文本质量
– 对话系统评估
– 创意写作评估

参考资料：Language Model Evaluation Beyond Perplexity

四、人类评估：Elo Rating vs 成对比较

两种方法对比

方法	原理	优势	劣势
Elo Rating	竞技排名系统	动态更新、可比较多个模型	需要大量对比
成对比较	两两对比投票	简单直观	难以扩展到多模型

Elo Rating

原理：借鉴国际象棋排名系统

更新公式：

新Elo = 旧Elo + K × (实际得分 - 预期得分)

应用：Chatbot Arena（LMSys）

成对比较

流程：

1. 给评估者展示两个模型的输出
2. 评估者选择更好的一个
3. 统计胜率

参考资料：Chatbot Arena论文

五、幻觉检测与缓解

方法	类型	核心原理
Semantic Entropy	不确定性估计	语义空间熵检测
SelfCheckGPT	零资源黑盒	多次生成比对
FActScore	原子事实验证	逐一验证事实

缓解最佳实践

RAG检索增强：基于检索结果回答
Chain-of-Thought：幻觉率从53%降至23%
DPO偏好优化：训练模型拒绝幻觉
引用机制：输出与源文档关联

参考资料：Nature 2024语义熵论文

六、偏见问题：如何测量和减轻模型偏见？

偏见测量方法

CrowS-Pairs：
– 成对句子对比
– 示例：”He is a doctor” vs “She is a nurse”
– 测量模型对哪个句子概率更高

StereoSet：
– 测量刻板印象
– 维度：性别、种族、职业

减轻偏见的方法

数据去偏：平衡训练数据
对抗训练：惩罚偏见输出
后处理：过滤有偏见的生成

参考资料：CrowS-Pairs论文

七、红队测试：对抗性攻击与防御

红队测试流程

攻击模拟：尝试让模型输出有害内容
漏洞发现：记录成功的攻击案例
防御加固：修复漏洞
迭代测试：重复上述流程

常见攻击方式

Jailbreak（越狱）：绕过安全限制
Prompt注入：嵌入恶意指令
角色扮演：让模型扮演无限制角色

防御策略

输入过滤：检测恶意Prompt
输出过滤：检测有害内容
对抗训练：用攻击样本训练

参考资料：OpenAI红队测试报告

八、隐私保护：联邦学习、差分隐私在LLM中的应用

联邦学习

原理：数据不出本地，只传输模型更新

流程：

1. 服务器分发模型到各客户端
2. 客户端用本地数据训练
3. 客户端上传模型更新（不上传数据）
4. 服务器聚合更新

差分隐私

原理：在数据中加入噪声，保护个体隐私

应用：训练时在梯度中加噪声

参考资料：联邦学习综述

小结

本文从8个高频面试题入手，系统梳理了LLM评估与安全的核心技术：

评估三维度：能力+安全+效率
自动指标：BLEU适合翻译、ROUGE适合摘要、BERTScore考虑语义
困惑度局限：只评估语言建模，不适合生成质量
人类评估：Elo Rating动态排名、成对比较简单直观
幻觉检测：语义熵、SelfCheckGPT、FActScore
偏见测量：CrowS-Pairs、StereoSet
红队测试：攻击模拟+漏洞发现+防御加固
隐私保护：联邦学习数据不出本地、差分隐私加噪声

下一篇预告：特殊架构篇——MoE、多模态、Diffusion怎么用？

TL;DR

一、LLM评估的三大维度：能力、安全、效率

三大评估维度

1. 能力评估

2. 安全评估

3. 效率评估

二、自动评估指标：BLEU vs ROUGE vs BERTScore

三种指标对比

BLEU（Bilingual Evaluation Understudy）

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

BERTScore

三、困惑度（Perplexity）：为什么不适合评估生成质量？

困惑度定义

困惑度的局限性

什么时候用困惑度？

四、人类评估：Elo Rating vs 成对比较

两种方法对比

Elo Rating

成对比较

五、幻觉检测与缓解

最新检测方法（2024-2025）

缓解最佳实践

六、偏见问题：如何测量和减轻模型偏见？

偏见测量方法

减轻偏见的方法

七、红队测试：对抗性攻击与防御

红队测试流程

常见攻击方式

防御策略

八、隐私保护：联邦学习、差分隐私在LLM中的应用

联邦学习

差分隐私

小结

相关推荐

评论 抢沙发

作者介绍

Toy

文章目录

置顶推荐

前沿哨所

GitHub Copilot实战：一键生成DDNS动态解析脚本

告别大模型内卷：寻找低成本、易获取的“小模型”API方案

Claude Code 支持热切换，CC Switch 实现多 AI 终端统一管理

claudecode新增Windows任务完成通知，点击快速跳转

Kiro-Gateway发布：修复接口缺陷，支持Cursor调用免费Claude模型

想生成法新社风格大片？这份Gemini提示词请收好

最新文章

热门专题

热门标签

网站统计

最新评论

十年稳如初 — LocVPS，用时间证明实力

10+ 年老牌云主机服务商，全球机房覆盖，性能稳定、价格厚道。

评论抢沙发