kaeken(嘉永島健司)のTech探究ブログ

主に情報科学/情報技術全般に関する知見をポストします。(最近は、特にData Science、機械学習、深層学習、統計学、Python、数学、ビッグデータ)

LLM日本語能力評価手法まとめ

yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation

  • JGLUE: Japanese General Language Understanding Evaluation
  • 日本語の一般的なNLU能力を測定するために構築
  • 翻訳なしでゼロから構築
  • 日本語のNLU研究を促進することを目的
  • ヤフー株式会社と早稲田大学川原研究室の共同プロジェクト
  • テキスト分類、文対分類、QAなどのタスクで構成
  • 各タスクに複数のデータセット、データセットディレクトリに位置
  • 現在、トレイン/デベロップメントセットのみ利用可能;テストセットはリーダーボード公開後にリリース予定
  • データセット構築にYahoo! クラウドソーシングを使用

The Rakuda Ranking of Japanese AI

  • Rakudaは、日本語の大規模言語モデルのランキング
  • 日本のトピックに関する開かれた質問への回答の性能に基づく
  • Huggingfaceのhuman_eval_llmのような英語のリーダーボードに触発され、日本語に長けたモデルの開発を促進することを目的とする
  • AIアシスタントがランキングプロセスで40の開かれた質問に回答
  • GPT-4が答えのペアを評価し、どのモデルがより良く応答したかを決定
  • ベイジアン方式でモデルのブラッドリー-テリー強度を推定するためにGPT-4の好みを使用
  • ブラッドリー-テリー強度はEloスコアの最適化バージョン

Nejumi LLMリーダーボード Neo | llm-leaderboard – Weights & Biases

  • 注目のLLMモデルの日本語による能力評価ランキング
  • 一問一答形式で言語理解を評価するllm-jp/llm-jp-eval

  • プロンプト対話で生成能力を評価するMT-Benchによる総合評価

  • llm-jp-evalについて、モデルの素の能力をはかるために、zero-shotで辛口評価
  • WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能
  • インタラクティブに比較したいモデルを選択可能
  • WandBのReportから、実際に行った実験まで辿ることが可能

cf. Nejumi LLMリーダーボード Neoからの考察|Weights & Biases Japan