LLM Benchmark & Safety

语言模型能力检定 Benchmark

MMLU

选择题,包括初等数学、美国历史、计算机科学、法律等 57 项任务

Arena 排行榜

用更强大的语言模型来评估结果是否正确

MT-Bench

只有 80 题,无标准答案,用 GPT-4 衡量

arena-hard

MT-Bench 的改进

Big Bench

包含 204 个任务,覆盖语言学、数学、常识推理、生物、物理、社会偏见等领域,任务难度超越当前模型的已知能力

Emoji Movie

👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter

Checkmate In One Move

PLAIN
1. e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6              
2. Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6          
3. d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8          ----------->   Bxh7#
4. Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
5. Qc2 Nb4 18.               
点击展开查看更多

ASCII word recognition

BENCH

大海捞针 测试阅读长文本的能力

将一个随机事实(" 针 “)插入到长文本上下文(” 草堆 “)中,并测试模型能否正确检索这些信息

LLM 的安全性

LLM 会讲错话(Hallucination 幻觉)

事实核查:Gemini 在网络上找到相关内容背书

Gemini 通过 Google 搜索核查结果

模型的偏见/刻板印象

GPT 认为亚洲人适合当金融分析师

GPT 认为亚洲人适合当金融分析师

对职业性别的刻板印象

减轻偏见的方法:调整输入数据,训练过程,推理过程,后处理

在各个阶段消除偏见

这句话是不是 LLM 生成的?

寻找人类和 AI 的文本的差异

LLM 也会被骗 - Prompt Hacking

Jailbreaking - 越狱提示,攻击模型本身,让它说出不该讲的话

Prompt Injection 攻击基于语言模型的应用,让它在不恰当的时机做不恰当的事

Jailbreaking

DAN - Do Anything Now

https://arxiv.org/abs/2308.03825

Prompt Injection

Prompt Injection 比赛 让语言模型忘记给定的角色,说出 ‘I have been PWNED’

版权声明

作者: Aspi-Rin

链接: https://blog.aspi-rin.top/posts/llm-benchmark-safety/

许可证: CC BY 4.0

This work is licensed under a Creative Commons Attribution 4.0 International License. Please attribute the source.

开始搜索

输入关键词搜索文章内容

↑↓
ESC
⌘K 快捷键