メインコンテンツへジャンプ

Twelve Labs + Databricks Mosaic AIを用いた高度なビデオ理解のためのマルチモーダルAIの習得

James Le (Twelve Labs)
ニーナ・ウィリアムズ
オースティン・ザッコー
フェルナンダ・ヘレディア
Share this post

Twelve Labs Embed APIは、開発者がセマンティックビデオ検索やデータキュレーションからコンテンツ推奨やビデオRAGシステムまでの高度なビデオ理解ユースケースを支えるマルチモーダル埋め込みを取得することを可能にします。

Twelve Labsを使用すると、ビデオ内の視覚的表現、ボディランゲージ、話された言葉、全体的なコンテキストの関係を捉えた文脈的なベクトル表現を生成することができます。Databricks Mosaic AI Vector Searchは、高次元ベクトルのインデックス作成とクエリに堅牢でスケーラブルなインフラストラクチャを提供します。このブログ記事では、これらの補完的な技術を活用して、ビデオAIアプリケーションで新たな可能性を引き出す方法をガイドします。

なぜTwelve Labs + Databricks Mosaic AIなのか?

Twelve Labs Embed APIをDatabricks Mosaic AI Vector Searchと統合することで、大規模なビデオデータセットの効率的な処理や正確な多モーダルコンテンツ表現など、ビデオAIの主要な課題に対処します。この統合により、高度なビデオアプリケーションの開発時間とリソースの必要性が削減され、大規模なビデオライブラリ全体で複雑なクエリを可能にし、全体的なワークフローの効率を向上させます。

マルチモーダルAIのマスタリング Twelve Labs

多モーダルデータの取り扱いに対する統一的なアプローチは特に注目に値します。 テキスト、画像、音声分析のための別々のモデルを使う代わりに、ユーザーは今、ビデオコンテンツの本質を捉える一貫した表現を使うことができます。これはデプロイメントアーキテクチャを単純化するだけでなく、洗練されたコンテンツ推奨システムから高度なビデオ検索エンジン、自動コンテンツモデレーションツールまで、より微妙でコンテキストに応じたアプリケーションを可能にします。

さらに、この統合はDatabricksエコシステムの機能を拡張し、既存のデータパイプラインと機械学習ワークフローにビデオ理解をシームレスに組み込むことを可能にします。企業がリアルタイムのビデオ分析を開発している場合、大規模なコンテンツ分類システムを構築している場合、または生成型AIの新しいアプリケーションを探求している場合でも、この組み合わせたソリューションは強力な基盤を提供します。これはビデオAIの可能性を押し広げ、メディアやエンターテイメントからセキュリティやヘルスケアまでの業界での革新と問題解決の新たな道を開きます。

Twelve Labs Embed APIの理解

Twelve Labs Embed APIは、ビデオコンテンツに特化した多モーダル埋め込み技術の大きな進歩を表しています。フレームごとの分析や異なるモダリティのための別々のモデルに依存する伝統的なアプローチとは異なり、このAPIは、視覚的表現、ボディランゲージ、話された言葉、ビデオ内の全体的なコンテキストの複雑な相互作用を捉えた文脈的なベクトル表現を生成します。

Embed APIは、ビデオデータを扱うAIエンジニアにとって特に強力ないくつかの主要な機能を提供します。まず、それはビデオに存在する任意のモダリティに対する柔軟性を提供し、テキストのみや画像のみのモデルを別々に必要とすることを排除します。次に、それは動き、アクション、時間情報を考慮したビデオネイティブなアプローチを採用し、ビデオコンテンツのより正確で時間的に一貫した解釈を保証します。最後に、それはすべてのモダリティからの埋め込みを統合する統一されたベクトル空間を作成し、ビデオコンテンツのより全体的な理解を促進します。

AIエンジニアにとって、Embed APIはビデオ理解タスクに新たな可能性を開きます。これにより、より洗練されたコンテンツ分析、改善されたセマンティック検索機能、および強化された推奨システムが可能になります。 APIが時間をかけて異なるモダリティ間の微妙な手がかりと相互作用を捉える能力は、感情認識、コンテキストに応じたコンテンツモデレーション、および高度なビデオ検索システムなど、ビデオコンテンツの微妙な理解を必要とするアプリケーションに特に価値があります。

前提条件:

Twelve Labs Embed APIをDatabricks Mosaic AI Vector Searchと統合する前に、以下の前提条件を確認してください:

  1. ワークスペースの作成と管理へのアクセス権を持つDatabricksアカウント。(https://www.databricks.com/try-databricksで無料トライアルにサインアップしてください)
  2. Pythonプログラミングと基本的なデータサイエンスの概念に精通していること。
  3. Twelve Labs APIキー。(https://api.twelvelabs.ioでサインアップしてください)
  4. ベクトル埋め込みと類似性検索の基本的な理解。
  5. (オプション) AWSアカウントがある場合は、Databricks on AWSを使用します。 これは、AzureまたはGoogle CloudのDatabricksを使用している場合は必要ありません。

ステップ1:環境の設定

まず、Databricks環境を設定し、必要なライブラリをインストールします:

1. 新しいDatabricksワークスペースを作成する

2. 新しいクラスタを作成するか、既存のクラスタに接続する

このアプリケーションにはほぼ任意のMLクラスタが適しています。 以下の設定は、最適な価格性能を求める方々に提供されています。

  • Computeタブで「Computeを作成」をクリックします
  • 「シングルノード」を選択し、ランタイムは14.3 LTS ML non-GPUを選択します
    • クラスタポリシーとアクセスモードはデフォルトのままにしておくことができます
  • ノードタイプとして“r6i.xlarge”を選択します
    • これにより、AWSでのコストが時間あたり$0.252、DatabricksでのDBU時間あたり1.02になるだけで、メモリ利用を最大化します
    • また、テストしたオプションの中でも最も高速なものの一つでした
  • 他のすべてのオプションはデフォルトのままにできます
  • 下部の「コンピュートを作成」をクリックし、ワークスペースに戻ります

3. Databricksワークスペースに新しいノートブックを作成します

  • ワークスペースで「作成」をクリックし、「ノートブック」を選択します
  • ノートブックに名前を付けてください(例:"TwelveLabs_MosaicAI_VectorSearch_Integration")
  • デフォルトの言語としてPythonを選択する

4. トゥエルブラボとモザイクAIベクトル検索のSDKをインストールします

ノートブックの最初のセルで、次のPythonコマンドを実行します:

5. Twelve Labsの認証を設定します

次のセルに、以下のPythonコードを追加します:

注: 高度なセキュリティを確保するために、APIキーをハードコーディングしたり環境変数を使用するのではなく、Databricksのシークレットを使用して保存することを推奨します。

ステップ2:マルチモーダル埋め込みを生成する

提供されたgenerate_embedding関数を使用して、Twelve Labs Embed APIを使用してマルチモーダル埋め込みを生成します。この関数は、DatabricksのSpark DataFramesと効率的に動作するように、Pandasのユーザー定義関数(UDF)として設計されています。それは 埋め込みタスクの作成、その進行状況の監視、結果の取得のプロセスをカプセル化します.

次に、process_url関数を作成します。これはビデオURLを文字列入力として受け取り、Twelve Labs Embed APIへのラッパーコールを呼び出し、array<float>を返します。

ここでは、それを実装し使用する方法を説明します。

1. UDFを定義する:

2. ビデオURLを含むサンプルのDataFrameを作成します:

3. UDFを適用して埋め込みを生成します:

4. 結果を表示します:

このプロセスは、DataFrame内の各ビデオURLに対して多モーダル埋め込みを生成します。これにより、ビデオコンテンツの多モーダルな本質を捉える視覚、音声、テキスト情報を含む。

大規模なビデオデータセットに対して埋め込みを生成することは、計算的に集中的で時間がかかることを覚えておいてください。 本番規模のアプリケーションには、バッチ処理または分散処理の戦略を実装することを検討してください。 また、潜在的なAPIの失敗やネットワークの問題を管理するために、適切なエラーハンドリングとロギングを設置していることを確認してください。

ステップ3:ビデオ埋め込み用のデルタテーブルを作成する

さて、ビデオのメタデータとTwelve Labs Embed APIによって生成された埋め込みを保存するためのソースDeltaテーブルを作成します。このテーブルは、Databricks Mosaic AI Vector Searchのベクトル検索インデックスの基盤となります。

まず、ビデオのURLとメタデータを含むソースDataFrameを作成します:

次に、SQLを使用してDeltaテーブルのスキーマを宣言します:

テーブルにはChange Data Feedが有効になっていることに注意してください。これは、ベクトル検索インデックスの作成と維持に不可欠です。

さて、先ほど定義した get_video_embeddings関数を使用して、ビデオの埋め込みを生成します:

このステップは、ビデオの数と長さにより、時間がかかる場合があります。

埋め込みが生成されたら、データをDelta Tableに書き込むことができます:

最後に、埋め込みを含むDataFrameを表示してデータを確認します:

このステップでは、ベクトル検索機能のための堅牢な基盤を作ります。Delta TableはVector Searchインデックスと自動的に同期を保ち、ビデオデータセットへの更新や追加が検索結果に反映されることを保証します。

覚えておくべきいくつかの重要なポイント:

  • id 列は自動生成され、各ビデオに一意の識別子を提供します。
  • embedding 列は、Twelve Labs Embed APIによって生成された各ビデオの高次元ベクトル表現を保存します。
  • Change Data Feedを有効にすることで、Databricksはテーブルの変更を効率的に追跡することができ、これは最新のVector Searchインデックスを維持するために重要です。

ステップ4:Mosaic AI Vector Searchの設定

このステップでは、Databricks Mosaic AI Vector Searchをビデオの埋め込みと連携させる設定を行います。これには、Vector Searchのエンドポイントと、自動的にあなたのvideos_source_embeddings Deltaテーブルと同期を保つDelta Sync Indexの作成が含まれます。

まず、Vector Searchエンドポイントを作成します:

このコードは新しいVector Searchエンドポイントを作成するか、同じ名前の既存のものを置き換えます。エンドポイントは、Vector Search操作のアクセスポイントとして機能します。

次に、自動的にあなたのvideos_source_embeddings Deltaテーブルと同期を保つDelta Sync Indexを作成します:

このコードは、ソースDeltaテーブルにリンクするDelta Sync Indexを作成します。インデックスをソーステーブルの変更から数秒以内に自動的に更新したい場合(Vector Searchの結果が常に最新であることを保証するため)、pipeline_type="CONTINUOUS"を設定します。

インデックスが作成され、正しく同期していることを確認するために、以下のコードを使用して同期をトリガーします:

このコードを使用すると、インデックスの状態を確認し、必要に応じて同期を手動でトリガーすることができます。本番環境では、ソースDeltaテーブルの変更に基づいてパイプラインを自動的に同期させることを好むかもしれません。

覚えておくべき重要なポイント:

  1. Vector Searchエンドポイントは、Vector Search操作のアクセスポイントとして機能します。
  2. Delta Sync IndexはソースDeltaテーブルと自動的に同期を保つため、検索結果は常に最新のものになります。
  3. embedding_dimensionは、Twelve LabsのEmbed APIによって生成される埋め込みの次元と一致するべきです(1024)。
  4. 次の primary_key は"id"に設定されており、これはソーステーブルの一意の識別子に対応するべきです。

embedding_vector_columnは「embedding」と設定されており、これはソーステーブルに含まれるビデオの埋め込みを含む列名と一致するべきです。

ステップ5: 類似性検索の実装

次のステップは、設定したMosaic AI Vector SearchインデックスとTwelve Labs Embed APIを使用して類似性検索機能を実装することです。これにより、マルチモーダル埋め込みの力を利用して、与えられたテキストクエリに類似したビデオを見つけることができます。

まず、Twelve Labs Embed APIを使用してテキストクエリの埋め込みを取得する関数を定義します:

この関数はテキストクエリを取り、ビデオの埋め込みと同じモデルを使用してその埋め込みを返し、ベクトル空間での互換性を確保します。

次に、類似性検索関数を実装します:

この関数はテキストクエリと返す結果の数を取ります。クエリの埋め込みを生成し、その後、Mosaic AI Vector Searchインデックスを使用して類似のビデオを見つけます。

検索結果を解析し表示するには、次のヘルパー関数を使用します:

さて、すべてをまとめてサンプル検索を実行します:

このコードは、Twelve Labsの類似性検索機能を使用して、クエリ「A dragon」に関連するビデオを見つける方法を示しています。 次に、結果をユーザーフレンドリーな形式で解析し表示します。

覚えておくべき重要なポイント:

  1. get_text_embedding 関数は、私たちのビデオ埋め込みと同じトゥエルブラボのモデルを使用し、互換性を保証します。
  2. similarity_search関数は、テキストから埋め込みへの変換とベクトル検索を組み合わせて、類似のビデオを見つけます。
  3. ネットワークの問題やAPIの変更が検索プロセスに影響を与える可能性があるため、エラーハンドリングは重要です。
  4. 次の parse_search_results 関数は、生のAPIレスポンスをより使いやすい形式に変換するのに役立ちます。
  5. あなたはnum_resultsパラメータをsimilarity_search関数で調整して、返される結果の数を制御することができます。

この実装により、ビデオデータセット全体で強力なセマンティック検索機能が可能になります。ユーザーは、トゥエルブラボのEmbed APIによって生成された豊富なマルチモーダル埋め込みを活用して、自然言語のクエリを使用して関連するビデオを見つけることができます。

ステップ6:ビデオ推奨システムの構築

さて、Twelve Labs Embed APIとDatabricks Mosaic AI Vector Searchで生成された多モーダル埋め込みを使用して、基本的なビデオ推奨システムを作成する時が来ました。 このシステムは、埋め込みの類似性に基づいて、指定されたビデオに似たビデオを提案します。

まず、シンプルな推奨機能を実装します:

この実装は次のことを行います:

  1. 次の get_video_recommendations 関数は、ビデオIDと返す推奨数を取ります。
  2. それはソースDeltaテーブルから指定されたビデオの埋め込みを取得します。
  3. この埋め込みを使用して、最も類似したビデオを見つけるための類似性検索を行います。
  4. この関数は、結果から入力ビデオを削除します(存在する場合)同じビデオを推奨するのを避けるためです。
  5. display_recommendationsヘルパー関数は、推奨事項をユーザーフレンドリーな形式でフォーマットし、表示します。

この推奨システムを使用するには:

  1. あなたのvideos_source_embeddingsテーブルに有効な埋め込みを持つビデオがあることを確認してください。
  2. あなたのデータセットから有効なビデオIDを使用して、get_video_recommendations関数を呼び出してください。
  3. この関数は、類似性に基づいて推奨されるビデオのリストを返し、表示します。

この基本的な推奨システムは、コンテンツベースのビデオ推奨のためにマルチモーダル埋め込みを活用する方法を示しています。いくつかの方法で拡張および改善することができます:

  • ユーザーの好みと視聴履歴を取り入れて、パーソナライズされた推奨を提供します。
  • 多様性を確保するためのメカニズムを実装します。
  • ビデオのメタデータ(例:ジャンル、長さ、アップロード日)に基づいてフィルターを追加します。
  • 頻繁にリクエストされる推奨事項のキャッシングメカニズムを実装してパフォーマンスを向上させます。

推奨の品質は、ビデオデータセットのサイズと多様性、およびTwelve Labs Embed APIによって生成された埋め込みの精度に依存することを覚えておいてください。システムにビデオを追加すると、推奨される内容はより関連性が高く、多様性が増すはずです。

この統合を次のレベルへ

インデックスを更新し同期する

ビデオライブラリが成長し進化するにつれて、Vector Searchインデックスを最新の状態に保つことが重要です。Mosaic AI Vector Searchは、ソースDeltaテーブルとのシームレスな同期を提供し、推奨事項と検索結果が常に最新のデータを反映することを保証します。

インデックスの更新と同期に関する主要な考慮事項:

  1. 増分更新: Delta Lake'の変更データフィードを利用して、インデックス内の変更されたレコードまたは新しいレコードのみを効率的に更新します。
  2. スケジュールされた同期: Databricksのワークフロー管理ツールを使用して、定期的な同期ジョブを実装し、インデックスの新鮮さを維持します。
  3. リアルタイム更新: 時間に敏感なアプリケーションの場合、Databricks Mosaic AIを使用してほぼリアルタイムのインデックス更新を実装することを検討してください ストリーミング機能.
  4. バージョン管理: Delta Lakeのタイムトラベル機能を利用して、インデックスの複数のバージョンを維持し、必要に応じて簡単にロールバックできるようにします。
  5. 同期ステータスの監視: 成功した同期を追跡し、更新プロセスの問題を迅速に特定するためのロギングとアラートメカニズムを実装します。

これらの技術をマスターすることで、Twelve Labsのビデオ埋め込みが常に最新で、高度な検索や推奨のユースケースで利用可能であることを確認できます。

パフォーマンスとスケーリングを最適化する

ビデオ分析パイプラインが成長するにつれて、パフォーマンスを最適化し、ソリューションをスケーリングすることが重要になります。 Databricksの分散コンピューティング機能とTwelve Labsの効率的な埋め込み生成は、大規模なビデオ処理タスクを処理するための堅牢な基盤を提供します。

あなたのソリューションを最適化し、スケーリングするためのこれらの戦略を考慮してください:

  1. 分散処理: Databricks Sparkクラスタを活用して、埋め込み生成とインデックス作成タスクを複数のノードに並列化します。
  2. キャッシング戦略:頻繁にアクセスされる埋め込みのためのインテリジェントなキャッシングメカニズムを実装し、API呼び出しを減らし、応答時間を改善します。
  3. バッチ処理: 大規模なビデオライブラリの場合、非ピーク時間に埋め込みを生成し、インデックスを更新するためのバッチ処理ワークフローを実装します。
  4. クエリ最適化: ベクトル検索のクエリを微調整し、num_results などのパラメータを調整し、効率的なフィルタリング技術を実装します。
  5. インデックスのパーティショニング: 大規模なデータセットの場合、クエリのパフォーマンスを向上させ、より細かい更新を可能にするために、インデックスのパーティショニング戦略を探索してみてください。
  6. オートスケーリング: ワークロードの要求に基づいて計算リソースを動的に調整するために、Databricksのオートスケーリング機能を活用します。
  7. エッジコンピューティング: レイテンシに敏感なアプリケーションの場合、モデルの軽量バージョンをデータソースに近い場所にデプロイすることを検討してください。

これらの最適化技術を実装することで、増え続けるビデオライブラリとユーザーの要求の増加に対応しながら、高いパフォーマンスとコスト効率を維持することができます。

モニタリングと分析

ビデオ理解パイプラインの継続的な成功を確保するためには、堅牢な監視と分析の実装が不可欠です。Databricksは、システムパフォーマンス、ユーザーエンゲージメント、ビジネスインパクトの追跡に強力なツールを提供します。

モニタリングと分析に焦点を当てるべき主要な領域:

  1. パフォーマンス指標: クエリの遅延、埋め込み生成時間、インデックス更新時間などの主要なパフォーマンス指標を追跡します。
  2. 使用状況分析:ユーザーのインタラクション、人気の検索クエリ、頻繁に推奨されるビデオを監視して、ユーザーの行動についての洞察を得ます。
  3. 品質評価: 自動メトリクスとユーザーフィードバックを使用して、検索結果と推奨事項の関連性を評価するフィードバックループを実装します。
  4. リソース利用: 計算リソースの使用、API呼び出しの量、ストレージ消費を監視し、コストとパフォーマンスを最適化します。
  5. エラートラッキング: パイプライン内の問題を迅速に特定し解決するために、包括的なエラーロギングとアラートを設定します。
  6. A/Bテスト: Databricksの実験機能を利用して、異なる埋め込みモデル、検索アルゴリズム、または推奨戦略をテストします。
  7. ビジネスインパクト分析:ユーザーエンゲージメント、コンテンツ消費、またはコンバージョン率などの主要なビジネス指標とビデオ理解能力を相関させます。
  8. コンプライアンス監視: ビデオ処理パイプラインがデータプライバシー規制とコンテンツモデレーションガイドラインに準拠していることを確認します。

包括的な監視と分析戦略を実装することで、ビデオ理解パイプラインのパフォーマンスと影響についての貴重な洞察を得ることができます。このデータ駆動型のアプローチにより、継続的な改善が可能となり、Twelve Labsの高度なビデオ理解機能をDatabricks Data Intelligence Platformに統合する価値を示すことができます。

まとめ

Twelve LabsとDatabricks Mosaic AIは、高度なビデオ理解と分析のための堅牢なフレームワークを提供します。 この統合は、マルチモーダル埋め込みと効率的なベクトル検索機能を活用し、開発者が洗練されたビデオ検索、推奨、分析システムを構築することを可能にします。

このチュートリアルでは、環境の設定、埋め込みの生成、Vector Searchの設定、基本的な検索と推奨機能の実装という技術的なステップを歩いてきました。 また、スケーリング、最適化、およびソリューションの監視に関する重要な考慮事項に対応します。

ビデオコンテンツの進化する風景において、この媒体から正確な洞察を抽出する能力は重要です。この統合により、開発者は複雑なビデオ理解タスクに対処するためのツールを手に入れることができます。私たちは、技術的な能力を探求し、高度なユースケースを試し、ビデオ理解技術を進化させるAIエンジニアのコミュニティに貢献することを奨励します。

関連リソース

この統合をさらに探求し、活用するためには、以下のリソースを検討してみてください:

  1. トゥエルブラボのドキュメンテーション
  2. Databricks Vector Search Documentation
  3. Databricks Community Forums
  4. Twelve Labs Discord Community
Databricks 無料トライアル

関連記事

ロールスロイスの画像生成に Databricks Mosaic AI のパワーを活用する

ロールス・ロイスは、様々なAIプロジェクトにおいて Databricksデータインテリジェンスプラットフォーム の変革的な力を目の当たりにしてきました。その一例として、ロールス・ロイスとDatabricksの協力プロジェクトがあります。このプロジェクトは条件付き敵対的生成ネットワーク(cGAN)の学習プロセスの最適化に焦点を当てており、 Databricks Mosaic AIツール を使用することの多くの利点を実証しています。 このcGAN学習最適化の共同プロジェクトでは、チームは数値、テキスト、画像データの使用を検討しました。主な目標は、ロールス・ロイスの設計空間探索能力を向上させ、パラメトリックモデルの限界を克服することでした。これは、従来の形状モデリングとシミュレーションプロセスを必要とせずに、特定の設計条件を満たす革新的な設計コンセプトの識別と評価を推進するために、過去のシミュレーションデータを再利用できるようにすることで達成されました。 ビデオを見る: ロールスロイスがクラウドベースの生成AI を使用

DatabricksとMLflowを活用して、FactSetが企業向け生成AIプラットフォームを実現した方法

「FactSetの使命は、クライアントがデータに基づいた意思決定を行い、ワークフローと生産性を向上させることです。私たちは、プラットフォーム全体でAI駆動のソリューションを提供するために、自社の開発者およびクライアントの企業の開発者が効率的かつ効果的に革新を進めることを支援しています。Databricksはこの革新の重要な要素であり、データとAIを中心としたソリューションを構築するための柔軟なプラットフォームを提供することで、価値を創出しています。」 - Kate Stepp, CTO, FactSet 私たちの企業と主要な取り組み 2024年には、特にAIの応用を通じてクライアントのワークフローを改善し、検索やさまざまなクライアントチャットボット体験における提供内容を強化することに焦点を当てています。AIをさまざまなサービスに統合することで、より個別化された効率的なクライアント体験を提供し、成長を促進することを目指しています。これらのAI駆動の強化は、ファクトセット投資家向けの財務提案の生成からポートフォリオの

Santalucía Seguros: 顧客サービスとエージェントの生産性を向上させるエンタープライズレベルの RAG を構築する

Translation Review by Akihiro.Kuwano 保険業界では、顧客は自分のニーズに応える、パーソナライズされた、迅速で効率的なサービスを求めています。 一方、保険代理店は、複数の場所からさまざまな形式で大量のドキュメントにアクセスする必要があります。 100 年以上家族をサポートしてきたスペインの企業 Santalucía Seguros は、顧客サービスとエージェントの生産性を向上させるために、製品、補償範囲、手順などに関するエージェントの問い合わせをサポートできる GenAI ベースの仮想アシスタント (VA) を実装しました。 VA は Microsoft Teams 内でアクセスされ、あらゆるモバイル デバイス、タブレット、コンピューターから、エージェントの質問に自然言語でリアルタイムに、24 時間 365...
生成 AI一覧へ