LLM Benchmark & Safety

言語モデルの能力評価 Benchmark

MMLU

選択形式、初等数学・アメリカ史・コンピュータサイエンス・法律など57種類のタスクを含む

Arena リーダーボード

より強力な言語モデルを使って、結果が正しいかどうかを評価する

MT-Bench

80問しかなく、正解なし。GPT-4で採点

  • バイアスが生じる可能性あり:言語モデルは長い回答を好む傾向がある

arena-hard

MT-Benchの改善版

Big Bench

言語学・数学・常識推論・生物・物理・社会的偏見など204タスクを含み、難易度は現在のモデルの既知能力を超えるレベル

Emoji Movie(絵文字映画当てゲーム)

👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter

Checkmate In One Move(一手詰め)

PLAIN
1. e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6              
2. Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6          
3. d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8          ----------->   Bxh7#
4. Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
5. Qc2 Nb4 18.               

ASCII文字認識

BENCH

Needle in a Haystack(干し草の中の針) 長文読解能力のテスト

ランダムな事実(「針」)を長いテキストコンテキスト(「干し草の山」)に挿入し、モデルが正しくその情報を検索できるかを検証する

LLMの安全性

LLMは嘘をつく(Hallucination / 幻覚)

ファクトチェック:Geminiがウェブ上の関連情報を検索して根拠を示す

Gemini はGoogle検索で結果を検証する

モデルの偏見・ステレオタイプ

GPTがアジア人は金融アナリストに向いていると判断する

GPTがアジア人は金融アナリストに向いていると判断する

職業における性別ステレオタイプ

偏見を軽減する方法 :入力データ・学習プロセス・推論プロセス・後処理での調整

各段階での偏見除去

この文章はLLMが生成したもの?

人間とAIのテキストの違いを探る

LLMも騙される - Prompt Hacking

Jailbreaking(脱獄プロンプト)— モデル自体を攻撃して、言ってはいけないことを言わせる

  • 人間で言えば:殺人・放火

Prompt Injection — 言語モデルを使ったアプリケーションを攻撃し、不適切なタイミングで不適切なことをさせる

  • 人間で言えば:授業中に突然歌い出す

Jailbreaking

DAN - Do Anything Now

https://arxiv.org/abs/2308.03825

Prompt Injection

Prompt Injection コンテスト — 言語モデルに与えられた役割を忘れさせ、「I have been PWNED」と言わせる

ライセンス

著者: Aspi-Rin

リンク: https://blog.aspi-rin.top/posts/llm-benchmark-safety/

ライセンス: CC BY 4.0

This work is licensed under a Creative Commons Attribution 4.0 International License. Please attribute the source.