メインコンテンツへジャンプ
ページ 1

Mosaic AI TrainingでDBRX級のカスタムLLMを構築しよう!

私たちは最近、 DBRX という最新の汎用LLM(大規模言語モデル)を発表しました。DBRXは、Mosaic AI Trainingを使用してトレーニング、ファインチューニング、および評価されました。トレーニングは3072台のNVIDIA H100を使用してスケーリングされ、処理したトークン数は12兆を超えました。 LLMのトレーニング、特にDBRXのようなMoE(専門家の集合)モデルのトレーニングは難しいです。これには、多くのインフラ、パフォーマンス、科学的な課題を克服する必要があります。Mosaic AI Trainingはこれらの課題に対応するために意図的に構築され、 DBRX 、 MPTシリーズのモデル 、および Ola の Krutrim 、 AI2 の OLMo 、 Dynamo AIの...

トレーニングの高速化:FP8によるDatabricks Mosaic AIスタックの最適化

Databricksでは、あらゆる分野の世界最高の企業が、自社独自のデータに基づいてトレーニングされカスタマイズされたAI搭載システムを持つようになると考えています。 今日の企業は、独自のAIモデルをトレーニングすることで、競争上の優位性を最大限に高めることができます。 私たちは、企業が可能な限り迅速かつコスト効率よくAIを育成するための最良のプラットフォームを提供することをお約束します。 本日は、LLMスタックに施されたいくつかの大きな改良をご紹介します。これにより、お客様の事前トレーニングと微調整の効率が大幅に改善されました。 この投稿では、最新のスループット数値を紹介し、これらの結果を達成し、何千ものGPUに拡張するのに役立ったいくつかのテクニックについて説明します。 最新のベンチマーク結果 さっそく結果を見てみましょう。 図1は、BFloat16(BF16)とFP8(Float8)のデータ型を使用し、異なるモデルサイズでトレーニングを実行した場合に達成された1秒あたりの浮動小数点演算(FLOPS)を示して