メインコンテンツへジャンプ
ページ 1

モザイク評価ガントレットのキャリブレーション

April 30, 2024 テッサ・バートン による投稿 in
良いベンチマークとは、どのモデルが優れていて、どのモデルが劣っているかを明確に示すものです。 Databricks Mosaic Researchチームは、研究者が実験を評価するための優れた測定ツールを見つけることに専念しています。 モザイク評価ガントレットは、モデルの質を評価するためのベンチマークセットで、言語理解、読解力、記号的問題解決、世界知識、常識、プログラミングの6つのコアコンピテンシーにまたがる39の公開ベンチマークで構成されています。 モデル規模を超えた研究タスクに最も有用なメトリクスに優先順位をつけるため、一連の高度なモデルを使用してベンチマークをテストしました。 最近の研究、特に DeepMindのChinchilla論文 では 、 パラメータ数と学習データサイズの両方を増やすことで言語モデルをスケールアップすると、性能が大幅に向上することが実証 されています。信頼できるベンチマークセットを特定するには、モデルの性能とスケールの間に確立された関係を活用します。スケーリング法則は個々のベンチマーク