メインコンテンツへジャンプ

Databricks Model Servingを使用したプライベートLLMのデプロイ

アフマド・ビラル
Ankit Mathur
Kasey Uhlenhuth
Joshua Hartman
Share this post

翻訳:Saki Kitaoka.  -  Original Blog Link

Databricks Model ServingのGPUおよびLLM最適化サポートのパブリックプレビューを発表できることを嬉しく思います!この発表により、LLMやVisionモデルを含む、あらゆるタイプのオープンソースまたは独自のカスタムAIモデルをLakehouseプラットフォーム上にデプロイできるようになります。Databricks Model Servingは、LLM Serving用にモデルを自動的に最適化し、設定なしでクラス最高のパフォーマンスを提供します。

Databricks Model Servingは、統合データおよびAIプラットフォーム上で開発された初のサーバーレスGPUサービング製品です。これにより、データの取り込みから微調整、モデルのデプロイ、モニタリングに至るまで、GenAIアプリケーションの構築とデプロイをすべて単一のプラットフォーム上で行うことができます。

Azure上のユーザーは、Model ServingのGPUおよびLLM最適化サポートを有効にするために、サインアップフォームに記入する必要があります。

 

Databricks Model ServingによるジェネレーティブAIアプリケーションの構築

"Databricks Model Servingを利用することで、ジェネレーティブAIを当社のプロセスに統合し、カスタマーエクスペリエンスを向上させ、業務効率を高めることができます。Model Servingのおかげで、データとモデルを完全にコントロールしながらLLMモデルを展開することができます" - easyJet、データサイエンス&アナリティクス担当ディレクター、ベン・ディアス氏 - Learn more

インフラ管理を心配することなくAIモデルを安全にホスト

Databricks Model Servingは、複雑なインフラストラクチャを理解する必要なく、あらゆるAIモデルをデプロイするための単一のソリューションを提供します。つまり、自然言語モデル、視覚モデル、音声モデル、表形式モデル、カスタムモデルなど、どのように学習させたかに関係なく、ゼロから構築したものでも、オープンソースから調達したものでも、独自のデータで微調整したものでも、あらゆるモデルをデプロイできます。MLflowでモデルを記録するだけで、CUDAのようなGPUライブラリを備えたプロダクションレディのコンテナを自動的に準備し、サーバーレスGPUにデプロイします。MLflowのフルマネージドサービスは、インスタンスの管理、バージョンの互換性の維持、パッチの適用といった面倒な作業をすべて代行します。このサービスは、トラフィックパターンに合わせてインスタンスを自動的にスケールし、レイテンシパフォーマンスを最適化しながらインフラコストを節約します。

"Databricks Model Servingは、有意義なセマンティック検索アプリケーションからメディアトレンドの予測まで、多様なユースケースにインテリジェンスを注入する当社の能力を加速しています。CUDAとGPUサーバーのスケーリングの複雑な仕組みを抽象化し簡素化することで、Databricksは私たちの本当の専門分野、つまりインフラの手間や負担をかけずにコンデナストのすべてのアプリケーションでAIを活用することに集中できるようになりました" - Condé Nast社シニアMLエンジニア、ベン・ホール氏

最適化されたLLMサービングでレイテンシーとコストを削減


Databricks Model Servingには、大規模な言語モデルを効率的に提供するための最適化が含まれており、レイテンシーとコストを最大3~5倍削減します。最適化されたLLM Servingの使用は非常に簡単です。モデルをOSSまたは微調整された重みとともに提供するだけで、あとはDatabricksがモデルを最適化されたパフォーマンスで提供します。これにより、お客様はモデル最適化のための低レベルライブラリを書く代わりに、LLMをアプリケーションに統合することに集中することができます。Databricks Model Servingは、MPTとLlama2クラスのモデルを自動的に最適化します。

Note: Benchmarked on llama2-13b with input_tokens=512, output_tokens=64 on Nvidia 4xA10

Lakehouse AIインテグレーションでデプロイを加速


LLMをプロダクション化する場合、単にモデルをデプロイするだけではありません。検索拡張世代(RAG)、パラメータ効率的ファインチューニング(PEFT)、標準ファインチューニングなどのテクニックを使ってモデルを補完する必要もあります。さらに、LLMの品質を評価し、モデルの性能と安全性を継続的に監視する必要があります。その結果、チームは異種のツールの統合に多大な時間を費やすことになり、運用の複雑性が増し、メンテナンスのオーバーヘッドが発生します。

Databricks Model Servingは、統一されたデータおよびAIプラットフォーム上に構築されているため、データの取り込みから微調整、デプロイメント、モニタリングに至るまで、LLMOps全体を単一のプラットフォーム上で管理できます。Model Servingは、Lakehouse内のさまざまなLLMサービスと統合されています:

  • Fine-tuning: Lakehouse上でお客様独自のデータを使って基礎モデルを直接微調整することにより、精度と差別化を向上させます。
  • ベクトル検索のインテグレーション: 検索拡張世代とセマンティック検索のユースケースのためにベクトル検索を統合し、シームレスに実行します。プレビューのお申し込みはこちらから。
  • 組み込みのLLM管理: Databricks AI Gatewayと統合され、すべてのLLMコールの中央APIレイヤーとして使用できます。
  • MLflow: MLflowのPromptLabを介してLLMを評価、比較、管理します。
  • 品質と診断: リクエストとレスポンスを Delta テーブルに自動的に取り込み、モデルを監視およびデバッグします。さらにLabelboxとのパートナーシップにより、このデータをラベルと組み合わせてトレーニングデータセットを生成できます。
  • 統一されたガバナンス: Unity Catalogで、Model Servingで消費および生成されたものを含む、すべてのデータとAIアセットを管理およびガバナンスできます。

 

LLMサービングに信頼性とセキュリティを導入


Databricks Model Servingは、データ、モデル、およびデプロイメント構成を完全に制御しながら、スケールの大きな推論を可能にする専用コンピュートリソースを提供します。選択したクラウド領域で専用の容量を確保することで、低オーバーヘッドのレイテンシー、予測可能なパフォーマンス、SLAに裏付けされた保証が得られます。さらに、お客様のワークロードは多層的なセキュリティによって保護され、最も機密性の高いタスクでも安全で信頼性の高い環境を確保します。また、規制の厳しい業界特有のコンプライアンス・ニーズに対応するため、複数の管理体制を導入しています。詳細については、このページをご覧になるか、Databricksのアカウントチームまでお問い合わせください。

GPUとLLMのサービングを始めましょう

 

  • Databricks Model Servingで最初のLLMをデプロイするには、スタートチュートリアル (AWS | Azure).をお読みください。
  • Azureをご利用の場合は、こちらからサインアップしてGPUとLLM Servingを有効にしてください。
  • Databricks Model Servingのドキュメントをさらに詳しくご覧ください。
  • ジェネレーティブAIに対するDatabricksのアプローチについてはこちらをご覧ください。
Databricks 無料トライアル

関連記事

Lakehouse AI: Generative AIアプリケーション構築のためのデータ中心アプローチ

翻訳: Masahiko Kitamura オリジナル記事: Lakehouse AI: a data-centric approach to building Generative AI applications ジェネレーティブAIは、あらゆるビジネスに変革をもたらすでしょう。Databricksは10年にわたりAIイノベーションのパイオニアとして、AIソリューションを提供するために何千ものお客様と積極的に協力し、月間1,100万ダウンロードを誇るMLflowのようなプロジェクトでオープンソースコミュニティと協力してきました。Lakehouse AIとそのユニークなデータ中心アプローチにより、私たちはお客様がスピード、信頼性、完全なガバナンスでAIモデルを開発・展開できるよう支援します。本日開催されたData and AI Summitでは、Lakehouse AIがお客様のジェネレーティブAI制作の旅を加速させる最高のプラットフォームとなるよう、いくつかの新機能を発表しました。これらのイノベーションには、V

Dolly:オープンなモデルで ChatGPT の魔法を民主化

概要 Databricks では、従来のオープンソースの大規模言語モデル(LLM)を利用して ChatGPT のような命令追従能力を実現できることを確認しました。高品質な学習データを使用して 1 台のマシンで 30 分ほどトレーニングするだけです。また、命令追従能力の実現には、必ずしも最新のモデルや大規模なモデルは必要ないようです。GPT-3 のパラメータ数が 1750 億であるのに対し、私たちのモデルでは 60 億です。私たちはモデル Dolly のコードをオープンソース化しています。Dolly を Databricks 上でどのように再作成できるか、今回のブログではこのことについて詳しく解説します。 Dolly のようなモデルは LLM の民主化を促進します。LLM...
データサイエンス・ML一覧へ