序章
Databricks のモデルサービングは、Llama 2、MosaicML MPT、BGE などの Databricks によるファインチューニングまたはデプロイ済みのモデルや、Azure OpenAI、AWS Bedrock、AWS SageMaker、Anthropic などの他のモデルプロバイダからのモデルをデプロイ、管理、クエリ、モニタリングするための統合サービスです。統合アプローチにより、あらゆるクラウドやプロバイダのモデルでも容易に実験や実運用ができ、リアルタイムアプリケーションに最適な候補を見つけることができます。さまざまなモデルの A/B テストを実施したり、 デプロイされたモデルの品質を本番データで監視できます。モデルサービングには、Llama2 70B のようなデプロイ済みのモデルも用意されており、RAG(Retrieval Augmented Generation:検索拡張生成)のような AI アプリケーションの開発を迅速に開始することを可能にし、スループット保証のためにトークンごとのアクセスやプロビジョニングされたコンピュートを有料で提供します。
お客さまの声
あらゆる AI モデルのデプロイメントを簡素化
事前学習済みのオープンソースモデルから、独自のデータに基づいて構築されたカスタムモデルまで、CPU と GPU の両方であらゆるタイプのモデルをデプロイできます。自動化されたコンテナ構築とインフラ管理により、メンテナンスコストを削減し、デプロイを迅速化するため、AI プロジェクトの構築とビジネスへのより迅速な価値の提供に集中できます。
全モデルの一元管理
PyFunc、scikit-learn、LangChain のようなカスタム ML モデル、Llama 2、MPT、BGE のようなDatabricks 上の基盤モデル(FM)、ChatGPT、Claude 2、Cohere、Stable Diffusion のような他の場所でホストされている基盤モデルを含む全てのモデルを管理します。モデルサービングは、Databricks がホストしているモデルや、Azure や AWS 上の他のモデルプロバイダからのモデルを含め、統一されたユーザーインターフェースと API で全てのモデルにアクセスできるようにします。
Effortless batch inference
Model Serving enables efficient AI inference on large datasets, supporting all data types and models in a serverless environment. You can seamlessly integrate with Databricks SQL, Notebooks and Workflows to apply AI models across vast amounts of data in one streamlined operation. Enhance data processing, generate embeddings and evaluate models — all without complex rework.
組み込まれたガバナンス
Databricks でホストされているモデルであっても、他のモデルプロバイダであっても、適切な権限の付与、モデル品質の監視、レート制限の設定、全てのモデルのリネージの追跡が可能なため、厳格なセキュリティ要件とガバナンス要件に対応できます。
データ中心のモデル
データインテリジェンスプラットフォームとの強力な統合により、デプロイメントを加速し、エラーを削減します。企業データで拡張(RAG)またはファインチューニングされたさまざまな生成 AI モデルを用意にホストできます。モデルサービングは、AI のライフサイクル全体にわたって、自動化されたルックアップ、モニタリング、ガバナンスを提供します。
費用対効果
CPU と GPU の両方をサポートした可用性の高いサーバーレスサービス上で、低レイテンシの API としてモデルを提供します。重要なニーズを満たすためにゼロから簡単に拡張でき、要件が変化した場合は縮小できます。1 つまたは複数のデプロイ済みモデルと、スループット保証のためのトークンごとの支払い(コミットメントなしのオンデマンド)、またはプロビジョニングされたコンピュートワークロードの支払いによって迅速に開始できます。Databricks がインフラの管理とメンテナンスのコストを引き受けます。これにより、お客さまはビジネス価値の提供に専念することが可能です。