メインコンテンツへジャンプ

検索拡張生成(RAG)用のツール スイートに関する発表に続き、本日、Databricks での Mosaic AI Vector Search(ベクトル検索)の一般提供を発表できることを嬉しく思います。

Mosaic AI Vector Search とは何か?

Vector Search を使用すると、開発者は PDF、Office ドキュメント、Wiki などの非構造化ドキュメントの類似性検索を通じて、検索拡張生成(RAG)および生成 AI アプリケーションの精度を向上させることができます 。これにより、コンテキストとドメインの知識で クエリが強化され、結果の精度と品質が向上します。

Databricks データインテリジェンスプラットフォームの一部である Vector Search により、RAG および生成 AI アプリケーションがデータレイクに保存されている独自のデータを高速かつ安全に使用し、正確な応答を提供できるようになります。 他のデータベースとは異なり、Vector Search はソースからインデックスへの自動データ同期をサポートしており、複雑でコストのかかるパイプラインのメンテナンスが不要になります。 組織が安心のためにすでに構築しているのと同じセキュリティおよびデータガバナンス ツールを活用します。 サーバーレス設計により、 Databricks Vector Search は簡単に拡張でき、数十億の埋め込みと 1 秒あたり数千のリアルタイム クエリをサポートできます。

顧客が Vector Search を好む理由は何か?

「Ford Direct では、ディーラーがパフォーマンス、在庫、傾向、顧客エンゲージメントのメトリクスを評価できるように、統合チャットボットを作成する必要がありました。 Vector Search により、当社独自のデータとドキュメントを、検索拡張生成 (RAG) を使用する生成 AI ソリューションに統合できるようになりました。 Vector Search と Databricks Delta テーブルおよび Unity Catalog の統合により、ソース データが更新されると、デプロイ済みのモデルやアプリケーションを操作したり再デプロイしたりすることなく、ベクトル インデックスをリアルタイムでシームレスに実行できるようになりました」 - アナリティクス担当副社長 Tom Thomas 氏

Vector Search は高速、安全、そして使いやすいように設計されました。

  • 高速かつ低 TCO - Vector Search は、他のプロバイダーよりも最大 5 倍高速なパフォーマンスを実現し、低い TCO で高いパフォーマンスを実現するように設計されています。
  • 自動データ取り込み - Vector Search を使用すると、1 回のクリックで任意の Delta テーブルをベクトル インデックスに同期できます。複雑なカスタム構築されたデータ取り込み/同期パイプラインは必要ありません。
  • 組み込みガバナンス - Vector Search は、すでにデータインテリジェンスプラットフォームで使用されているのと同じ Unity Catalog ベースのセキュリティおよびデータガバナンスツールを使用するため、非構造化データ用に別のデータガバナンスポリシーセットを構築して維持する必要がありません。
  • クラス最高の検索品質 - Vector Search は、他のプロバイダーと比較して、すぐに使用できる最高の再現率(リコール)を提供するように設計されています。
  • サーバーレス スケーリング - 当社のサーバーレス インフラストラクチャは、インスタンスやサーバーの種類を構成する必要なく、お客様のニーズに合わせて自動的にスケーリングします。
「Corning は、ガラスおよびセラミックスの技術が多くの産業および科学用途で使用されている材料科学企業です。 私たちは、Databricks を使用して AI 研究アシスタントを構築し、米国特許庁のデータの 2,500 万件の文書をインデックス化しました。 LLM を搭載したアシスタントが質問に高い精度で応答することは、研究者が取り組んでいるタスクを見つけてさらに進めるために、私たちにとって非常に重要でした。 これを実装するために、Vector Search を使用して、LLM に米国特許庁のデータを追加しました。 Databricks ソリューションにより、検索速度、応答品質、精度が大幅に向上しました」 - Corning 社 主席ソフトウェアエンジニア Denis Kamotsky 氏

自動データ取り込み

ベクトル データベースに情報を保存するには、データ取り込みパイプラインが必要です。このパイプラインでは、さまざまなソースからの未処理の生のデータをクリーンアップし、処理 (解析/チャンク化) し、AI モデルに埋め込んでから、データベースにベクターとして保存する必要があります。 別の一連のデータ取り込みパイプラインを構築して維持するこのプロセスはコストと時間がかかり、貴重なエンジニアリング リソースの時間を奪います。 Vector Search は Databricks データインテリジェンスプラットフォームと完全に統合されており、新しいデータパイプラインを構築して維持することなく、データを自動的に取得して埋め込むことができます。

Delta Sync APIs は、ソース データとベクトル インデックスを自動的に同期します。 ソース データが追加、更新、または削除されると、対応するベクトル インデックスが自動的に更新されて一致します。 Vector Search は、内部的に障害を管理し、再試行を処理し、バッチ サイズを最適化して、作業や入力なしで最高のパフォーマンスとスループットを提供します。 これらの最適化により、埋め込みモデルエンドポイントの使用率が向上するため、総所有コストが削減されます。

ベクトルインデックス

ガバナンスの一元化

企業組織では、データに対する厳格なセキュリティとアクセス制御が求められるため、ユーザーは生成 AI モデルを使用して、アクセスすべきではない機密データを渡すことはできません。 ただし、現在のベクトル データベースには強力なセキュリティとアクセス制御が備わっていないか、組織がデータ プラットフォームとは別に別のセキュリティ ポリシー セットを構築して維持する必要があります。 セキュリティとガバナンスのセットが複数あると、コストと複雑さが増し、信頼性の高いメンテナンスにエラーが発生しやすくなります。

Mosaic AI Vector Search は、Unity Catalog との統合により、データ インテリジェンス プラットフォームをすでに保護しているのと同じセキュリティ制御とデータガバナンスを活用します。 ベクトル インデックスは Unity Catalog 内にエンティティとして保存され、同じ統合インターフェースを活用してデータに関するポリシーを定義し、埋め込みを細かく制御します。

「カタログエクスプローラ」(Catalog Explorer)

クラス最高の検索品質

検索拡張生成(RAG)アプリケーションでは、適切で正確な回答を提供するための基礎となるのは、基盤となる検索エンジンの検索品質にあります。 この品質を評価する上で中心となるのは、再現率(リコール)と呼ばれる指標です。 再現率は、データセットから関連するすべてのドキュメントを取得する検索エンジンの能力を測定します。 高い再現率により、重要な情報が省略されないことが保証されるため、特に法的な調査、医療に関する問い合わせ、技術サポートなど、情報の完全性が最優先される分野では不可欠です。

RAG アプリケーションでは、正確で状況に応じた適切な応答を生成するために、最も関連性の高いドキュメントを取得することに依存しているため、リコールは特に重要です。 検索エンジンの想起率が低いと、重要なドキュメントを見逃すリスクがあり、不完全または誤った回答につながる可能性があります。 そのため、高い再現率を確保することは、単なる技術的な要件ではなく、RAGアプリケーションにおける信頼と信頼性を構築するための基本的な側面です。

Mosaic AI Vector Search は、他のプロバイダーと比較して、すぐに使用できる最高の再現率を提供するように設計されています。 当社のベクトル検索では、最先端の機械学習モデル、最適化されたインデックス戦略、高度なクエリ理解技術を活用して、すべての検索で関連するドキュメントの全範囲を確実に取得できるようにします。 この機能は Vector Search を際立たせ、比類のないレベルの検索品質をユーザーに提供し、RAG アプリケーションの全体的な有効性を高めます。

高い再現率を優先することで、より正確で信頼性が高く、コンテキストに応じた応答が可能になり、当社のテクノロジーを活用したアプリケーションに対するユーザーの満足度と信頼性が向上します。

検索品質

次のステップ

まずはドキュメントを読みVector Searchインデックスを作成してみてください。

Vector Searchの価格 について詳しく読む

独自のRAGアプリケーションの デプロイを開始する (デモ)

生成AIエンジニア学習パスウェイ:生成AIで自分のペースでオンデマンドのインストラクター主導のコースを受講します

先ほどの 発表 の概要をお読みください

Databricks 無料トライアル

関連記事

Lakehouse AI: Generative AIアプリケーション構築のためのデータ中心アプローチ

翻訳: Masahiko Kitamura オリジナル記事: Lakehouse AI: a data-centric approach to building Generative AI applications ジェネレーティブAIは、あらゆるビジネスに変革をもたらすでしょう。Databricksは10年にわたりAIイノベーションのパイオニアとして、AIソリューションを提供するために何千ものお客様と積極的に協力し、月間1,100万ダウンロードを誇るMLflowのようなプロジェクトでオープンソースコミュニティと協力してきました。Lakehouse AIとそのユニークなデータ中心アプローチにより、私たちはお客様がスピード、信頼性、完全なガバナンスでAIモデルを開発・展開できるよう支援します。本日開催されたData and AI Summitでは、Lakehouse AIがお客様のジェネレーティブAI制作の旅を加速させる最高のプラットフォームとなるよう、いくつかの新機能を発表しました。これらのイノベーションには、V

The Power of a Trusted Data Lakehouse: Go Bust or Boom

September 15, 2023 Eon Retief による投稿 in
Special thanks to our partners at Immuta , Alation , and Anomalo for their collaboration on the content and technical assets from this...

Best practices for cross-government data sharing

Government data exchange is the practice of sharing data between different government agencies and often partners in commercial sectors. Government can share data...
データサイエンス・ML一覧へ