言語モデルの能力評価 Benchmark
MMLU
選択形式、初等数学・アメリカ史・コンピュータサイエンス・法律など57種類のタスクを含む

Arena リーダーボード

より強力な言語モデルを使って、結果が正しいかどうかを評価する
MT-Bench
80問しかなく、正解なし。GPT-4で採点
- バイアスが生じる可能性あり:言語モデルは長い回答を好む傾向がある
arena-hard
MT-Benchの改善版
Big Bench
言語学・数学・常識推論・生物・物理・社会的偏見など204タスクを含み、難易度は現在のモデルの既知能力を超えるレベル
Emoji Movie(絵文字映画当てゲーム)
👧🐟🐠🐡 - Finding Nemo 👦👓⚡️ - Harry Potter
Checkmate In One Move(一手詰め)
1. e4 e6 2. Ke2 d5 3. e5 c5 4. f4 Nc6
2. Nf3 Qb6 6. g4 Bd7 7. h4 Nge7 8. c3 Ng6
3. d4 cxd4 10. cxd4 Be7 11. Kf2 O-O 12. h5 Nh8 -----------> Bxh7#
4. Be3 Qxb2+ 14. Kg3 Qxa1 15. Bd3 Qxa2 16. Rh2 Qa1
5. Qc2 Nb4 18. ASCII文字認識


Needle in a Haystack(干し草の中の針) 長文読解能力のテスト
ランダムな事実(「針」)を長いテキストコンテキスト(「干し草の山」)に挿入し、モデルが正しくその情報を検索できるかを検証する

LLMの安全性
LLMは嘘をつく(Hallucination / 幻覚)
ファクトチェック:Geminiがウェブ上の関連情報を検索して根拠を示す

モデルの偏見・ステレオタイプ


偏見を軽減する方法 :入力データ・学習プロセス・推論プロセス・後処理での調整

この文章はLLMが生成したもの?
人間とAIのテキストの違いを探る
- テキストの内在次元(Intrinsic Dimension, ID)を推定する 分類器を訓練して人間とAIが生成したテキストを区別する
- Testing of Detection Tools for AI-Generated Text
言語モデルの出力に電子透かしを埋め込む
- LeftHash、SelfHashなどの手法
- 主流の方法は、言語モデルがトークンを生成するたびに確率をわずかに調整し、一部の単語が通常より少し高い頻度で出現するようにする
- 大規模言語モデルの透かしの信頼性について
LLMも騙される - Prompt Hacking
Jailbreaking(脱獄プロンプト)— モデル自体を攻撃して、言ってはいけないことを言わせる
- 人間で言えば:殺人・放火
Prompt Injection — 言語モデルを使ったアプリケーションを攻撃し、不適切なタイミングで不適切なことをさせる
- 人間で言えば:授業中に突然歌い出す
Jailbreaking
DAN - Do Anything Now
https://arxiv.org/abs/2308.03825

モデルがあまり得意でない言語を使う https://arxiv.org/abs/2307.02483
矛盾する指示を与える https://arxiv.org/abs/2307.02483

物語を作るなど、言語モデルを説得しようとする
言語モデルに訓練データを話させる

Prompt Injection

Prompt Injection コンテスト — 言語モデルに与えられた役割を忘れさせ、「I have been PWNED」と言わせる

