AI编程 · 架构思考 · 技术人生

大模型面试100问06:评估与安全篇

#大模型面试100问
智谱 GLM,支持多语言、多任务推理。从写作到代码生成,从搜索到知识问答,AI 生产力的中国解法。

TL;DR

评估和安全是LLM落地的两大关键——不能衡量就无法改进,不能保护就不敢上线。BLEU/ROUGE适合机器翻译但不适合开放生成,困惑度只能评估语言建模能力;幻觉检测用语义熵,偏见测量用CrowS-Pairs;红队测试模拟攻击,差分隐私保护数据。本文从8个高频面试题入手,带你搞懂LLM评估与安全的核心技术:为什么困惑度不适合评估生成质量、如何检测和缓解幻觉、红队测试怎么做、联邦学习如何保护隐私。读完这篇,你能回答”Elo Rating和成对比较的区别”这种深度问题。


一、LLM评估的三大维度:能力、安全、效率

三大评估维度

LLM评估 = 能力评估 + 安全评估 + 效率评估

1. 能力评估

语言理解
– 阅读理解(SQuAD、RACE)
– 自然语言推理(MNLI、SNLI)
– 常识推理(HellaSwag、PIQA)

语言生成
– 文本生成质量
– 对话连贯性
– 创意写作能力

专业能力
– 数学推理(GSM8K、MATH)
– 代码生成(HumanEval、MBPP)
– 多语言能力(XNLI、XCOPA)

2. 安全评估

有害内容
– 暴力、仇恨言论
– 偏见和歧视
– 隐私泄露

鲁棒性
– 对抗攻击抵抗力
– Prompt注入防御
– 幻觉率

3. 效率评估

推理性能
– 延迟(Latency)
– 吞吐量(Throughput)
– 显存占用

成本
– 训练成本
– 推理成本
– 维护成本

参考资料:HELM基准测试、OpenAI Model Spec


二、自动评估指标:BLEU vs ROUGE vs BERTScore

三种指标对比

指标 原理 优势 劣势 适用场景
BLEU N-gram精确匹配 简单快速 忽略语义 机器翻译
ROUGE N-gram召回率 适合摘要 忽略语义 文本摘要
BERTScore 语义相似度 考虑语义 计算慢 开放生成

BLEU(Bilingual Evaluation Understudy)

核心思想:计算生成文本和参考文本的N-gram重叠

公式

BLEU = BP × exp(Σ w_n × log p_n)

其中:
- p_n:n-gram精确率
- BP:brevity penalty(惩罚过短的生成)

示例

参考:The cat is on the mat
生成:The cat is on the table

1-gram匹配:5/6 = 0.83
2-gram匹配:3/5 = 0.60
BLEU-2 ≈ 0.70

局限
– 只看词汇重叠,不看语义
– “The cat is on the mat” 和 “The feline is on the rug” BLEU很低,但语义相同

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

核心思想:计算召回率(参考文本中有多少被生成文本覆盖)

变体
– ROUGE-N:N-gram召回率
– ROUGE-L:最长公共子序列
– ROUGE-S:跳跃二元组

适用:文本摘要(关注是否覆盖关键信息)

BERTScore

核心思想:用BERT计算词向量,比较语义相似度

优势
– “cat” 和 “feline” 语义相似,得分高
– 考虑词序和上下文

劣势:计算成本高(需要跑BERT)

参考资料:BLEU论文、BERTScore论文


三、困惑度(Perplexity):为什么不适合评估生成质量?

困惑度定义

Perplexity = exp(-1/N × Σ log P(w_i | context))

直观理解:模型对下一个词的”困惑程度”

困惑度的局限性

1. 只评估语言建模能力

模型A:困惑度10,生成"The cat sat on the mat"
模型B:困惑度15,生成"The feline rested on the rug"

困惑度说模型A更好,但模型B语义更丰富

2. 不考虑生成质量

困惑度低 ≠ 生成质量高
可能只是记住了训练数据

3. 不考虑任务目标

对话任务:需要有趣、有用
困惑度:只看概率分布

什么时候用困惑度?

适用场景
– 比较同类模型(如GPT-2 vs GPT-3)
– 评估语言建模能力
– 预训练阶段的监控指标

不适用场景
– 评估生成文本质量
– 对话系统评估
– 创意写作评估

参考资料:Language Model Evaluation Beyond Perplexity


四、人类评估:Elo Rating vs 成对比较

两种方法对比

方法 原理 优势 劣势
Elo Rating 竞技排名系统 动态更新、可比较多个模型 需要大量对比
成对比较 两两对比投票 简单直观 难以扩展到多模型

Elo Rating

原理:借鉴国际象棋排名系统

更新公式

新Elo = 旧Elo + K × (实际得分 - 预期得分)

应用:Chatbot Arena(LMSys)

成对比较

流程

1. 给评估者展示两个模型的输出
2. 评估者选择更好的一个
3. 统计胜率

参考资料:Chatbot Arena论文


五、幻觉检测与缓解

最新检测方法(2024-2025)

方法 类型 核心原理
Semantic Entropy 不确定性估计 语义空间熵检测
SelfCheckGPT 零资源黑盒 多次生成比对
FActScore 原子事实验证 逐一验证事实

缓解最佳实践

  1. RAG检索增强:基于检索结果回答
  2. Chain-of-Thought:幻觉率从53%降至23%
  3. DPO偏好优化:训练模型拒绝幻觉
  4. 引用机制:输出与源文档关联

参考资料:Nature 2024语义熵论文


六、偏见问题:如何测量和减轻模型偏见?

偏见测量方法

CrowS-Pairs
– 成对句子对比
– 示例:”He is a doctor” vs “She is a nurse”
– 测量模型对哪个句子概率更高

StereoSet
– 测量刻板印象
– 维度:性别、种族、职业

减轻偏见的方法

  1. 数据去偏:平衡训练数据
  2. 对抗训练:惩罚偏见输出
  3. 后处理:过滤有偏见的生成

参考资料:CrowS-Pairs论文


七、红队测试:对抗性攻击与防御

红队测试流程

  1. 攻击模拟:尝试让模型输出有害内容
  2. 漏洞发现:记录成功的攻击案例
  3. 防御加固:修复漏洞
  4. 迭代测试:重复上述流程

常见攻击方式

  • Jailbreak(越狱):绕过安全限制
  • Prompt注入:嵌入恶意指令
  • 角色扮演:让模型扮演无限制角色

防御策略

  1. 输入过滤:检测恶意Prompt
  2. 输出过滤:检测有害内容
  3. 对抗训练:用攻击样本训练

参考资料:OpenAI红队测试报告


八、隐私保护:联邦学习、差分隐私在LLM中的应用

联邦学习

原理:数据不出本地,只传输模型更新

流程

1. 服务器分发模型到各客户端
2. 客户端用本地数据训练
3. 客户端上传模型更新(不上传数据)
4. 服务器聚合更新

差分隐私

原理:在数据中加入噪声,保护个体隐私

应用:训练时在梯度中加噪声

参考资料:联邦学习综述


小结

本文从8个高频面试题入手,系统梳理了LLM评估与安全的核心技术:

  1. 评估三维度:能力+安全+效率
  2. 自动指标:BLEU适合翻译、ROUGE适合摘要、BERTScore考虑语义
  3. 困惑度局限:只评估语言建模,不适合生成质量
  4. 人类评估:Elo Rating动态排名、成对比较简单直观
  5. 幻觉检测:语义熵、SelfCheckGPT、FActScore
  6. 偏见测量:CrowS-Pairs、StereoSet
  7. 红队测试:攻击模拟+漏洞发现+防御加固
  8. 隐私保护:联邦学习数据不出本地、差分隐私加噪声

下一篇预告:特殊架构篇——MoE、多模态、Diffusion怎么用?

赞(0)
未经允许不得转载:Toy's Tech Notes » 大模型面试100问06:评估与安全篇
免费、开放、可编程的智能路由方案,让你的服务随时随地在线。

评论 抢沙发

十年稳如初 — LocVPS,用时间证明实力

10+ 年老牌云主机服务商,全球机房覆盖,性能稳定、价格厚道。

老品牌,更懂稳定的价值你的第一台云服务器,从 LocVPS 开始