ファインチューニングされたラマモデルに対するバッチ推論とMosaic AIモデル提供
序章 本番環境向け、スケーラブルでフォールトトレラントな生成型AIソリューションを構築するには、 信頼性の高いLLMの利用可能性が必要です。あなたのLLMエンドポイントは、専用の計算をあなたのワークロードのために持つことで需要を満たす準備ができている必要があります。必要に応じて容量をスケーリングし、一貫したレイテンシを持ち、すべてのインタラクションをログに記録する能力、そして予測可能な価格設定を持つことが求められます。このニーズを満たすために、Databricksは プロビジョニングされたスループットエンドポイント を、各種の高性能基盤モデル(全ての主要なラマモデル、DBRX、ミストラルなど)で提供しています。しかし、最新で最も性能の高い微調整されたLlama 3.1と3.2のバリアントを提供することはどうでしょうか?NVIDIAの Nemotron 70Bモデル は、Llama 3.1の微調整されたバリアントで、多様なベンチマークで競争力のあるパフォーマンスを示しています。Databricksの最近の革新により、