kaeken(嘉永島健司)のTech探究ブログ

主に情報科学/情報技術全般に関する知見をポストします。（最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ）

LLM日本語能力評価手法まとめ

LLM

yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation

JGLUE: Japanese General Language Understanding Evaluation
日本語の一般的なNLU能力を測定するために構築
翻訳なしでゼロから構築
日本語のNLU研究を促進することを目的
ヤフー株式会社と早稲田大学川原研究室の共同プロジェクト
テキスト分類、文対分類、QAなどのタスクで構成
各タスクに複数のデータセット、データセットディレクトリに位置
現在、トレイン/デベロップメントセットのみ利用可能；テストセットはリーダーボード公開後にリリース予定
データセット構築にYahoo! クラウドソーシングを使用

The Rakuda Ranking of Japanese AI

Rakudaは、日本語の大規模言語モデルのランキング
日本のトピックに関する開かれた質問への回答の性能に基づく
Huggingfaceのhuman_eval_llmのような英語のリーダーボードに触発され、日本語に長けたモデルの開発を促進することを目的とする
AIアシスタントがランキングプロセスで40の開かれた質問に回答
GPT-4が答えのペアを評価し、どのモデルがより良く応答したかを決定
ベイジアン方式でモデルのブラッドリー-テリー強度を推定するためにGPT-4の好みを使用
ブラッドリー-テリー強度はEloスコアの最適化バージョン

Nejumi LLMリーダーボード Neo | llm-leaderboard – Weights & Biases

注目のLLMモデルの日本語による能力評価ランキング
一問一答形式で言語理解を評価するllm-jp/llm-jp-eval
プロンプト対話で生成能力を評価するMT-Benchによる総合評価
llm-jp-evalについて、モデルの素の能力をはかるために、zero-shotで辛口評価
WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能
インタラクティブに比較したいモデルを選択可能
WandBのReportから、実際に行った実験まで辿ることが可能

cf. Nejumi LLMリーダーボード Neoからの考察｜Weights & Biases Japan