语言模型能力检定 Benchmark
MMLU
选择题,包括初等数学、美国历史、计算机科学、法律等 57 项任务

Arena 排行榜

用更强大的语言模型来评估结果是否正确
MT-Bench
只有 80 题,无标准答案,用 GPT-4 衡量
- 可能存在偏见:语言模型喜欢长的答案
arena-hard
MT-Bench 的改进
Big Bench
包含 204 个任务,覆盖语言学、数学、常识推理、生物、物理、社会偏见等领域,任务难度超越当前模型的已知能力
Emoji Movie
👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter
Checkmate In One Move
1. e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6
2. Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6
3. d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8 -----------> Bxh7#
4. Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
5. Qc2 Nb4 18. ASCII word recognition


大海捞针 测试阅读长文本的能力
将一个随机事实(" 针 “)插入到长文本上下文(” 草堆 “)中,并测试模型能否正确检索这些信息

LLM 的安全性
LLM 会讲错话(Hallucination 幻觉)
事实核查:Gemini 在网络上找到相关内容背书

模型的偏见/刻板印象


减轻偏见的方法:调整输入数据,训练过程,推理过程,后处理

这句话是不是 LLM 生成的?
寻找人类和 AI 的文本的差异
- 估算文本的内在维度(Intrinsic Dimension, ID) 训练分类器区分人类和 AI 生成的文字
- Testing of Detection Tools for AI-Generated Text 在语言模型的输出上加浮水印
- LeftHash, SelfHash 等方法
- 主流方法是在语言模型生成每个 token 时,稍微调整生成概率,使得部分词出现的频率略高于正常情况
- 论大型语言模型水印的可靠性
LLM 也会被骗 - Prompt Hacking
Jailbreaking - 越狱提示,攻击模型本身,让它说出不该讲的话
- 对应到人类:杀人放火
Prompt Injection 攻击基于语言模型的应用,让它在不恰当的时机做不恰当的事
- 对应到人类:上课时突然唱歌
Jailbreaking
DAN - Do Anything Now
https://arxiv.org/abs/2308.03825

使用模型不是很熟悉的语言 https://arxiv.org/abs/2307.02483
给予冲突的指令 https://arxiv.org/abs/2307.02483

视图说服语言模型(如编一个故事)
让语言模型讲出训练资料

Prompt Injection

Prompt Injection 比赛 让语言模型忘记给定的角色,说出 ‘I have been PWNED’


