LLM Benchmark & Safety

LLM Benchmark & Safety

Generative AI 2024 Spring 课程笔记

2024 年 06 月 30 日

2 分钟

745 字

分类:

Machine Learning

标签:

#notes #LLM #Benchmark #Safety

语言模型能力检定 Benchmark

MMLU

选择题，包括初等数学、美国历史、计算机科学、法律等 57 项任务

Arena 排行榜

用更强大的语言模型来评估结果是否正确

MT-Bench

只有 80 题，无标准答案，用 GPT-4 衡量

可能存在偏见：语言模型喜欢长的答案

arena-hard

MT-Bench 的改进

Big Bench

包含 204 个任务，覆盖语言学、数学、常识推理、生物、物理、社会偏见等领域，任务难度超越当前模型的已知能力

Emoji Movie

👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter

Checkmate In One Move

PLAIN

e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6              
Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6          
d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8          ----------->   Bxh7#
Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
Qc2 Nb4 18.               
点击展开查看更多

ASCII word recognition

BENCH

大海捞针测试阅读长文本的能力

将一个随机事实（" 针 “）插入到长文本上下文（” 草堆 “）中，并测试模型能否正确检索这些信息

LLM 的安全性

LLM 会讲错话（Hallucination 幻觉）

事实核查：Gemini 在网络上找到相关内容背书

Gemini 通过 Google 搜索核查结果

模型的偏见/刻板印象

GPT 认为亚洲人适合当金融分析师

GPT 认为亚洲人适合当金融分析师

对职业性别的刻板印象

减轻偏见的方法：调整输入数据，训练过程，推理过程，后处理

在各个阶段消除偏见

这句话是不是 LLM 生成的？

寻找人类和 AI 的文本的差异

估算文本的内在维度（Intrinsic Dimension, ID）训练分类器区分人类和 AI 生成的文字
Testing of Detection Tools for AI-Generated Text 在语言模型的输出上加浮水印
LeftHash, SelfHash 等方法
主流方法是在语言模型生成每个 token 时，稍微调整生成概率，使得部分词出现的频率略高于正常情况
论大型语言模型水印的可靠性

LLM 也会被骗 - Prompt Hacking

Jailbreaking - 越狱提示，攻击模型本身，让它说出不该讲的话

对应到人类：杀人放火

Prompt Injection 攻击基于语言模型的应用，让它在不恰当的时机做不恰当的事

对应到人类：上课时突然唱歌

Jailbreaking

DAN - Do Anything Now

https://arxiv.org/abs/2308.03825

使用模型不是很熟悉的语言 https://arxiv.org/abs/2307.02483
给予冲突的指令 https://arxiv.org/abs/2307.02483
视图说服语言模型（如编一个故事）
让语言模型讲出训练资料

Prompt Injection

Prompt Injection 比赛让语言模型忘记给定的角色，说出 ‘I have been PWNED’

版权声明

作者: Aspi-Rin

链接: https://blog.aspi-rin.top/posts/llm-benchmark-safety/

许可证: CC BY 4.0

This work is licensed under a Creative Commons Attribution 4.0 International License. Please attribute the source.