yahoojapan/JGLUE: JGLUE: Japanese General Language Understanding Evaluation
- JGLUE: Japanese General Language Understanding Evaluation
- 日本語の一般的なNLU能力を測定するために構築
- 翻訳なしでゼロから構築
- 日本語のNLU研究を促進することを目的
- ヤフー株式会社と早稲田大学川原研究室の共同プロジェクト
- テキスト分類、文対分類、QAなどのタスクで構成
- 各タスクに複数のデータセット、データセットディレクトリに位置
- 現在、トレイン/デベロップメントセットのみ利用可能;テストセットはリーダーボード公開後にリリース予定
- データセット構築にYahoo! クラウドソーシングを使用
The Rakuda Ranking of Japanese AI
- Rakudaは、日本語の大規模言語モデルのランキング
- 日本のトピックに関する開かれた質問への回答の性能に基づく
- Huggingfaceのhuman_eval_llmのような英語のリーダーボードに触発され、日本語に長けたモデルの開発を促進することを目的とする
- AIアシスタントがランキングプロセスで40の開かれた質問に回答
- GPT-4が答えのペアを評価し、どのモデルがより良く応答したかを決定
- ベイジアン方式でモデルのブラッドリー-テリー強度を推定するためにGPT-4の好みを使用
- ブラッドリー-テリー強度はEloスコアの最適化バージョン
Nejumi LLMリーダーボード Neo | llm-leaderboard – Weights & Biases
- 注目のLLMモデルの日本語による能力評価ランキング
一問一答形式で言語理解を評価するllm-jp/llm-jp-eval
プロンプト対話で生成能力を評価するMT-Benchによる総合評価
- llm-jp-evalについて、モデルの素の能力をはかるために、zero-shotで辛口評価
- WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能
- インタラクティブに比較したいモデルを選択可能
- WandBのReportから、実際に行った実験まで辿ることが可能