メインコンテンツへジャンプ

AIをよりアクセシブルに:Databricks上のMeta Llama 3.3で最大80%のコスト削減!

Mosaic AI Model ServingでのMeta Llama 3.3の利用開始を発表
アフマド・ビラル
Kasey Uhlenhuth
ハンリン・タン
アナ・ニエト
Share this post

Summary

  • 80%のコスト削減: 新しいLlama 3.3モデルと価格の引き下げにより、大幅なコスト削減を実現します。
  • 高速な推論速度: 40%高速なレスポンスとバッチ処理時間の短縮により、より良い顧客体験と迅速な洞察を実現します。* 新しいMeta Llama 3.3モデルへのアクセス: Mosaic AIは、Llamaモデルのデプロイメントと管理に最も包括的なプラットフォームです。

企業が高品質なAIアプリを提供するエージェントシステムを構築するにつれて、私たちはお客様に最高のコスト効率を提供するための最適化を続けています。Meta Llama 3.3モデルがDatabricks Data Intelligence Platformで利用可能になったことを発表することを嬉しく思います。また、Mosaic AIのModel Servingの価格と効率性に大幅な更新が加えられました。これらの更新により、推論コストが最大80%削減され、AIエージェントを構築したり、バッチLLM処理を行っている企業にとって、以前よりも大幅にコスト効率が向上します。

  • コスト削減80%:新しいLlama 3.3モデルと価格の引き下げにより、大幅なコスト削減を実現します。
  • 推論速度の向上:レスポンスが40%速くなり、バッチ処理時間が短縮されることで、より良い顧客体験と迅速な洞察を実現します。
  • 新しいMeta Llama 3.3モデルへのアクセス: Metaの最新技術を活用して、品質とパフォーマンスを向上させます。

Mosaic AIとLlama 3.3を使用してエンタープライズAIエージェントを構築する

Metaとのパートナーシップを誇りに思います。Llama 3.3 70BをDatabricksに導入します。このモデルは、指示に従う能力、数学、多言語、コーディングタスクにおいて、大規模なLlama 3.1 405Bと競合しながら、ドメイン特化型のチャットボット、インテリジェントエージェント、大規模ドキュメント処理にコスト効率の良い解決策を提供します。

Llama 3.3は、オープンファウンデーションモデルの新たな基準を設定していますが、本番環境で使用可能なAIエージェントを構築するには、強力なモデルだけでは不十分です。Databricks Mosaic AIは、Llamaモデルをデプロイし、管理するための最も包括的なプラットフォームであり、企業データを理解することができる安全でスケーラブル、信頼性の高いAIエージェントシステムを構築するための強力なツールセットを提供します。

  • 統一APIでLlamaにアクセス: OpenAIやAnthropicを含む主要な基盤モデルを、Llamaとともに単一のインターフェースから簡単にアクセスできます。最大限の柔軟性を確保するために、モデルを自由に実験、比較、切り替えることができます。
  • AIゲートウェイでトラフィックを安全に監視: Mosaic AI Gatewayを使用して使用状況とリクエスト/レスポンスを監視しながら、PII検出や有害コンテンツのフィルタリングなどの安全ポリシーを強制し、安全でコンプライアンスを満たしたインタラクションを実現します。
  • リアルタイムエージェントの高速構築: 高品質なリアルタイムエージェントの作成を40%高速な推論速度、関数呼び出し機能、手動または自動のエージェント評価のサポートで実現します。
  • 大規模なワークフローをバッチ処理: LLMを簡単に適用し、シンプルなSQLインターフェースを使用して、40%高速な処理速度とフォールトトレランスを持つガバナンスデータ上で直接大規模なデータセットに適用します。
  • モデルをカスタマイズして高品質を得る: Llamaを微調整し、独自のデータを使用してドメイン固有の高品質なソリューションを構築します。
  • 自信を持ってスケールアップ: SLAに基づくサービング、セキュアな設定、および自動的にスケールアップするエンタープライズの進化する要求に対応したコンプライアンス対応のソリューションで、デプロイメントを拡大します。

新しい価格設定でGenAIをより手頃な価格に:

我々は、推論スタック全体で独自の効率改善を展開しており、これにより価格を下げ、GenAIをより多くの人々に利用可能にすることができます。新しい価格変更の詳細を見てみましょう:

 

トークンごとの課金価格の削減: 

  • ラマ3.1 405Bモデル:入力トークン価格が50%削減、出力トークン価格が33%削減。
  • Llama 3.1 70Bモデル: 入力と出力のトークンの両方で50%削減。

 

プロビジョニングスループットの価格削減: 

  • Llama 3.1 405B: 処理されるトークンあたりのコストを44%削減。
  • Llama 3.3 70BとLlama 3.1 70B: 処理されたトータルトークンあたりのドルで49%削減。

展開総コストを80%削減

より効率的で高品質なLlama 3.3 70Bモデルと価格の引き下げを組み合わせることで、総TCOを最大80%削減することが可能になりました。

 

具体的な例を見てみましょう。例えば、1分間に120リクエスト(RPM)を処理するカスタマーサービスのチャットボットエージェントを構築しているとします。このチャットボットは、平均で3,500の入力トークンを処理し、1回のインタラクションごとに300の出力トークンを生成し、ユーザーに対して文脈に富んだ応答を作成します。


Llama 3.3 70Bを使用すると、このチャットボットの運用コストは、LLMの使用に焦点を当てた場合、Llama 3.1 405Bと比較して88%低く、主要なプロプライエタリモデルと比較して72%コスト効率が良いとなります。

RPMが120のAIエージェント

さて、バッチ推論の例を見てみましょう。100Kレコードのデータセットでのドキュメント分類やエンティティ抽出のようなタスクでは、Llama 3.3 70Bモデルは、Llama 3.1 405Bに比べて驚くほど効率的です。3500の入力トークンと300の出力トークンを持つ行を処理しながら、モデルは同じ高品質の結果を達成し、コストを88%削減し、それは主要なプロプライエタリモデルを使用するよりも58%コスト効率が良いことを意味します。これにより、過度な運用費用をかけずに、ドキュメントを分類し、キーエンティティを抽出し、スケールで行動可能な洞察を生成することが可能になります。
100kテーブルでのバッチ推論

無料トライアル

AI Playgroundを訪れて、ワークスペースから直接Llama 3.3を試してみてください。

こちらをAIプレイグラウンド訪れて、ワークスペースから直接ラマ3.3を試してみてください。詳細については、以下のリソースを参照してください:

Databricks 無料トライアル

関連記事

シンプル・高速・スケーラブル!Mosaic AIで実現するバッチ LLM 推論

長年にわたり、企業は膨大な量の非構造化テキストデータ(文書、報告書、メールなど)を蓄積してきましたが、そこから意味のあるインサイトを抽出することは依然として課題でした。現在、大規模言語モデル(LLM)を活用することで、このデータをスケーラブルに分析する方法が実現しており、バッチ推論が最も効率的な解決策となっています。しかし、多くのツールはオンライン推論に焦点を当てており、バッチ処理機能の充実にはまだ課題が残されています。 本日、大規模文書に LLM を適用するための、よりシンプルで高速、かつスケーラブルな方法を発表します。これまでのようにデータを CSV ファイルとして 未管理の場所にエクスポートする必要はありません。今では、Unity Catalog による完全なガバナンスのもと、ワークフロー内でバッチ推論を直接実行できます。 以下の SQL クエリを記述し、ノートブックやワークフローで実行するだけで完了します。 ai_query を使用すれば、前例のない速度で大規模なデータセットを処理することが可能になり、最

バッチおよびエージェントワークフローのための構造化出力の紹介

多くのAIのユースケースは、非構造化入力を構造化データに変換することに依存しています。開発者はますます、LLMを利用して生のドキュメントから構造化データを抽出し、APIソースからデータを取得するアシスタントを構築し、行動を起こすエージェントを作成しています。これらの各ユースケースでは、モデルが構造化された形式に従った出力を生成する必要があります。 今日、私たちは Structured Outputs をMosaic AI Model Servingに導入することを発表します。これは、提供されたJSONスキーマにオプションで準拠できるJSONオブジェクトを生成するための統一されたAPIです。この新機能は、LlamaのようなオープンなLLM、ファインチューニングされたモデル、OpenAIのGPT-4oのような外部LLMを含むすべてのタイプのモデルをサポートし、特定のユースケースに最適なモデルを選択する柔軟性を提供します。 Structured Outputs は、新たに導入された response_format とと

Databricks上のMeta Llama 3.2の紹介:高速な言語モデルと強力なマルチモーダルモデル

Metaとのパートナーシップを通じて、Llama 3シリーズの最新モデルを Databricks Data Intelligence Platform でローンチすることを楽しみにしています。このLlama 3.2リリースの小型テキストモデルは、顧客が高速なリアルタイムシステムを構築することを可能にし、大型のマルチモーダルモデルは、Llamaモデルが視覚理解を獲得する初めてのマークです。 両方とも、Databricksの顧客が 複合AIシステム を構築するための重要なコンポーネントを提供し、これらのモデルを企業データに接続してデータインテリジェンスを可能にします。 Llamaシリーズの他のモデルと同様に、Llama 3.2モデルは今日からDatabricks Mosaic AIで利用可能で、あなたのデータで安全かつ効率的にチューニングすることができ、簡単にMosaic AI ゲートウェイ と エージェントフレームワーク にプラグインすることができます。 今日からDatabricksでLlama 3.2を使い始めま
生成 AI一覧へ