メインコンテンツへジャンプ

シンプル・高速・スケーラブル!Mosaic AIで実現するバッチ LLM 推論

アフマド・ビラル
ヨンビン・キム
Ankit Mathur
Share this post

長年にわたり、企業は膨大な量の非構造化テキストデータ(文書、報告書、メールなど)を蓄積してきましたが、そこから意味のあるインサイトを抽出することは依然として課題でした。現在、大規模言語モデル(LLM)を活用することで、このデータをスケーラブルに分析する方法が実現しており、バッチ推論が最も効率的な解決策となっています。しかし、多くのツールはオンライン推論に焦点を当てており、バッチ処理機能の充実にはまだ課題が残されています。

本日、大規模文書に LLM を適用するための、よりシンプルで高速、かつスケーラブルな方法を発表します。これまでのようにデータを CSV ファイルとして未管理の場所にエクスポートする必要はありません。今では、Unity Catalog による完全なガバナンスのもと、ワークフロー内でバッチ推論を直接実行できます。以下の SQL クエリを記述し、ノートブックやワークフローで実行するだけで完了します。

ai_queryを使用すれば、前例のない速度で大規模なデータセットを処理することが可能になり、最大規模のデータも迅速に処理できます。このインターフェースはすべての AI モデルに対応しており、LLM、従来の AI モデル、複合 AI システムを安全に適用し、スケールに応じたデータ分析を実現できます。

SELECT ai_query('llama-70b', "Summarize this call transcript: " || transcript) AS summary_analysis 
FROM call_center_transcripts; 
図1:バッチ推論ジョブは、規模が何であれ - 数百万または数十億のトークン - 同じ、馴染みのあるSQLインターフェースを使用して定義されます。
「Databricks を活用することで、ドキュメントのメタデータ抽出と後処理のためのマルチモーダル・バッチパイプラインを実行し、4000 億トークン以上を処理しました。データが存在する場所で馴染みのあるツールを使いながら、データをエクスポートしたり巨大な GPU インフラを管理することなく、統合ワークフローを実行し、生成 AI の価値をデータに直接もたらすことができました。Scribd, Inc. では、バッチ推論を活用して、さらなる価値提供の機会を広げることに期待しています。」
— Steve Neola, Scribd シニアディレクター

人々はバッチLLM推論を何に使っているのでしょうか?

バッチ推論により、企業は LLM をリアルタイム推論のように一度に1つではなく、大規模データセット全体に一度に適用できるようになります。データを一括で処理することで、コスト効率が高まり、処理速度が向上し、スケーラビリティも確保されます。企業がバッチ推論を活用している一般的な方法には以下が含まれます:

  • 情報抽出: 大規模なテキストから主要なインサイトを抽出したり、トピックを分類することで、レビューやサポートチケットなどの文書からデータ駆動の意思決定をサポートします。
  • データ変換: 非構造化テキストを翻訳、要約、構造化形式に変換し、データの質を向上させ、後続タスクに備えます。
  • 一括コンテンツ生成: 商品説明、マーケティング文、ソーシャルメディア投稿のテキストを自動生成し、企業がコンテンツ制作をスムーズにスケールできるようにします。

現在のバッチ推論の課題

従来のバッチ推論アプローチにはいくつかの課題があります:

  • 複雑なデータ処理: 既存のソリューションでは、データの手動エクスポートやアップロードが必要となることが多く、運用コストやコンプライアンス上のリスクが高まります。
  • 分断されたワークフロー: 多くの本番バッチワークフローには、前処理、マルチモデル推論、後処理といった複数のステップが含まれます。これには複数のツールを組み合わせる必要があり、実行が遅くなり、エラーのリスクも増大します。
  • パフォーマンスとコストのボトルネック: 大規模な推論には、専門的なインフラとチームによる設定と最適化が必要で、アナリストやデータサイエンティストがセルフサービスでインサイトをスケールさせる能力が制限されます。

Mosaic AI Model Serving上のバッチLLM推論

「Databricks を活用することで、LLM を使用して物件記録から取引データやエンティティデータを抽出し、100 万件以上のファイルを毎日処理するという面倒な手作業を自動化できました。Meta Llama3 8b をファインチューニングすることで精度目標を上回り、Mosaic AI Model Serving を使って、この処理を大規模に拡張しつつ、大量で高コストな GPU インフラを管理する必要がなくなりました。」
— Prabhu Narsina, First American VP データ&AI

Mosaic AI Model Serving上のバッチLLM推論

統制されたデータ管理上で手軽にAI活用

Mosaic AI を使用すると、ガバナンスの効いたデータが存在する場所で直接バッチ LLM 推論を実行でき、データ移動や準備は不要です。バッチ LLM 推論の適用は、任意の AI モデルでエンドポイントを作成し、SQL クエリを実行するだけで簡単に行えます(図に示されています)。Databricks 上の任意の開発環境から、ベースモデル、ファインチューニングモデル、従来の AI モデルをデプロイし、SQL エディタやノートブックでの対話的な実行、または Workflows や Delta Live Tables (DLT) を通じたスケジュール実行が可能です。

統制されたデータ上での労力なしAI

数百万行に対して高速推論を実行します

このリリースでは、数百万行のデータを迅速かつコスト効率よく処理できるよう複数のインフラ改善が導入されています。インフラは自動でスケーリングし、リソースを調整することで、大規模なワークロードにも効率的に対応できます。さらに、自動リトライによるフォールトトレランス機能を備え、大規模なワークフローでもエラーをスムーズに処理しながら自信を持って実行可能です。

実際のユースケースでは、LLM 推論はより広範なワークフローの一部に過ぎず、前処理や後処理が必要です。複数のツールや API を組み合わせる代わりに、Databricks では単一のプラットフォーム上でワークフロー全体を実行でき、複雑さを軽減し、貴重な時間を節約できます。以下に、新しいソリューションを用いたエンドツーエンドのワークフロー実行例を示します。

新しいソリューションを用いたエンドツーエンドのバッチワークフローを実行します。

また、SQLの高度なネスト機能を活用して、これらを単一のクエリに直接組み込むこともできます。

-- Step 1: Preprocessing
WITH cleaned_data AS (
    SELECT LOWER(regexp_replace(transcript_raw_text, '[^a-zA-Z\\s]', '')) AS transcript_text, call_id, call_timestamp
    FROM call_center_transcripts
),

-- Step 2: LLM Inference
inference_result AS (
    SELECT call_id, call_timestamp, ai_query('llama-70b', transcript_text) AS summary_analysis
    FROM cleaned_data
),

-- Step 3: Post-processing
final_result AS (
    SELECT call_id, call_timestamp, summary_analysis,
        CASE WHEN summary_analysis LIKE '%angry%' THEN 'High Risk'
             WHEN summary_analysis LIKE '%upset%' THEN 'Medium Risk' ELSE 'Low Risk' END AS risk_level,
        CASE WHEN summary_analysis LIKE '%refund%' THEN 'Refund Request'
             WHEN summary_analysis LIKE '%complaint%' THEN 'Complaint' ELSE 'General Inquiry' END AS action_required
    FROM inference_result
)

-- Retrieve Results
SELECT call_id, call_timestamp, summary_analysis, risk_level, action_required
FROM final_result
WHERE risk_level IN ('High Risk', 'Medium Risk');

バッチLLM推論のはじめかた

  • バッチLLM推論についてのステップバイステップの指示を含む私たちの入門ガイドをご覧ください。
  • デモをご覧ください。
  • あなたのデータに直接AIを適用することを可能にする他の組み込みSQL AI関数を発見してください。
Databricks 無料トライアル

関連記事

DatabricksのモザイクAIを用いて複合AIシステムをより高速に構築!

多くのお客様が、一般的なモデルを使用したモノリシックなプロンプトから、製品準備完了のGenAIアプリに必要な品質を達成するための特化した複合AIシステムへと移行しています。 7月には、 エージェントフレームワークとエージェント評価を立ち上げ 、多くの企業がエージェントアプリケーションを作成するために使用しています。その一例が Retrieval Augmented Generation (RAG) です。今日、私たちはエージェントフレームワークに新機能を追加し、複雑な推論を行い、サポートチケットの開設、メールへの返信、予約の取得などのタスクを実行するエージェントの構築プロセスを簡素化することを発表します。これらの機能には以下のものが含まれます: 構造化されたエンタープライズデータと非構造化エンタープライズデータを共有可能で管理された AIツールを通じてLLMに接続します。 新しいプレイグラウンド体験を使って、エージェントを素早く実験し評価します 。 新しい ワンクリックコード生成 オプションを使用して、プレイグラ

Databricks上のMeta Llama 3.2の紹介:高速な言語モデルと強力なマルチモーダルモデル

Metaとのパートナーシップを通じて、Llama 3シリーズの最新モデルを Databricks Data Intelligence Platform でローンチすることを楽しみにしています。このLlama 3.2リリースの小型テキストモデルは、顧客が高速なリアルタイムシステムを構築することを可能にし、大型のマルチモーダルモデルは、Llamaモデルが視覚理解を獲得する初めてのマークです。 両方とも、Databricksの顧客が 複合AIシステム を構築するための重要なコンポーネントを提供し、これらのモデルを企業データに接続してデータインテリジェンスを可能にします。 Llamaシリーズの他のモデルと同様に、Llama 3.2モデルは今日からDatabricks Mosaic AIで利用可能で、あなたのデータで安全かつ効率的にチューニングすることができ、簡単にMosaic AI ゲートウェイ と エージェントフレームワーク にプラグインすることができます。 今日からDatabricksでLlama 3.2を使い始めま

Mosaic AI Gatewayに高度なセキュリティとガバナンス機能が登場!

私たちは、Mosaic AI Gatewayに新たな強力な機能を導入できることを嬉しく思います。これにより、お客様がAIイニシアチブをさらに簡単に、そしてセキュリティやガバナンスを強化しながら加速させることが可能になります。 企業がAIソリューションの導入を急ぐ中で、セキュリティ、コンプライアンス、コストの管理がますます難しくなっています。そこで、昨年Mosaic AI Gatewayをリリースし、多くの企業がOpenAI GPT、Anthropic Claude、Meta Llamaモデルを含むさまざまなモデルのAIトラフィックを管理するために使用しています。 今回のアップデートでは、使用状況の追跡、ペイロードログの記録、ガードレール設定といった高度な機能が追加され、Databricksデータインテリジェンスプラットフォーム内のあらゆるAIモデルに対してセキュリティとガバナンスを適用できるようになりました。このリリースにより、Mosaic AI Gatewayは最も機密性の高いデータやトラフィックに対しても、プ
生成 AI一覧へ