LLM Benchmark & Safety

言語モデルの能力評価 Benchmark

MMLU

選択形式、初等数学・アメリカ史・コンピュータサイエンス・法律など57種類のタスクを含む

Arena リーダーボード

より強力な言語モデルを使って、結果が正しいかどうかを評価する

MT-Bench

80問しかなく、正解なし。GPT-4で採点

バイアスが生じる可能性あり：言語モデルは長い回答を好む傾向がある

arena-hard

MT-Benchの改善版

Big Bench

言語学・数学・常識推論・生物・物理・社会的偏見など204タスクを含み、難易度は現在のモデルの既知能力を超えるレベル

Emoji Movie（絵文字映画当てゲーム）

👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter

Checkmate In One Move（一手詰め）

PLAIN

e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6              
Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6          
d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8          ----------->   Bxh7#
Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
Qc2 Nb4 18.               
e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6
Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6
d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8 -----------> Bxh7#
Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
Qc2 Nb4 18.

ASCII文字認識

Needle in a Haystack（干し草の中の針）長文読解能力のテスト

ランダムな事実（「針」）を長いテキストコンテキスト（「干し草の山」）に挿入し、モデルが正しくその情報を検索できるかを検証する

LLMの安全性

LLMは嘘をつく（Hallucination / 幻覚）

ファクトチェック：Geminiがウェブ上の関連情報を検索して根拠を示す

モデルの偏見・ステレオタイプ

GPTがアジア人は金融アナリストに向いていると判断する

職業における性別ステレオタイプ

偏見を軽減する方法：入力データ・学習プロセス・推論プロセス・後処理での調整

この文章はLLMが生成したもの？

人間とAIのテキストの違いを探る

テキストの内在次元（Intrinsic Dimension, ID）を推定する分類器を訓練して人間とAIが生成したテキストを区別する
Testing of Detection Tools for AI-Generated Text 言語モデルの出力に電子透かしを埋め込む
- LeftHash、SelfHashなどの手法
- 主流の方法は、言語モデルがトークンを生成するたびに確率をわずかに調整し、一部の単語が通常より少し高い頻度で出現するようにする
大規模言語モデルの透かしの信頼性について

LLMも騙される - Prompt Hacking

Jailbreaking（脱獄プロンプト）— モデル自体を攻撃して、言ってはいけないことを言わせる

人間で言えば：殺人・放火

Prompt Injection — 言語モデルを使ったアプリケーションを攻撃し、不適切なタイミングで不適切なことをさせる

人間で言えば：授業中に突然歌い出す

Jailbreaking

DAN - Do Anything Now

https://arxiv.org/abs/2308.03825

モデルがあまり得意でない言語を使う https://arxiv.org/abs/2307.02483
矛盾する指示を与える https://arxiv.org/abs/2307.02483
物語を作るなど、言語モデルを説得しようとする
言語モデルに訓練データを話させる

Prompt Injection

Prompt Injection コンテスト — 言語モデルに与えられた役割を忘れさせ、「I have been PWNED」と言わせる