メインコンテンツへジャンプ
<
ページ 14
>

Twelve Labs + Databricks Mosaic AIを用いた高度なビデオ理解のためのマルチモーダルAIの習得

Twelve Labs Embed API は、開発者がセマンティックビデオ検索やデータキュレーションからコンテンツ推奨やビデオRAGシステムまでの高度なビデオ理解ユースケースを支えるマルチモーダル埋め込みを取得することを可能にします。 Twelve Labsを使用すると、ビデオ内の視覚的表現、ボディランゲージ、話された言葉、全体的なコンテキストの関係を捉えた文脈的なベクトル表現を生成することができます。Databricks Mosaic AI Vector Search は、高次元ベクトルのインデックス作成とクエリに堅牢でスケーラブルなインフラストラクチャを提供します。このブログ記事では、これらの補完的な技術を活用して、ビデオAIアプリケーションで新たな可能性を引き出す方法をガイドします。 なぜTwelve Labs + Databricks Mosaic AIなのか? Twelve Labs Embed APIをDatabricks Mosaic...

Databricksワークフローで反復的なタスクを合理化

Databricksワークフローのタスクループ化に For Each を使用したループが一般に利用可能になったことをお知らせします!この新しいタスクタイプは、ランタイムで定義された動的なパラメーターセットをループすることにより、反復的なタスクを自動化することがこれまで以上に簡単になります。これは、 Databricksワークフロー の 強化された制御フロー機能 への我々の継続的な投資の一部です。 For Each を使用すると、ワークフローの効率とスケーラビリティを向上させ、複雑なロジックではなく洞察に集中する時間を確保できます。 ループ処理は繰り返しタスクの処理を劇的に改善します 複雑なワークフローの管理は、しばしば複数のデータセットの処理や複数の操作の実行を必要とする反復的なタスクを扱うことを含みます。ループのサポートがないデータオーケストレーションツールは、いくつかの課題を提示します。 複雑なロジックの簡略化 以前は、ユーザーは反復的なタスクを管理するために手動で、保守が難しいロジックに頼ることが多かったで

Delta Live Tablesパイプラインのためのコスト効率的で増分的なETLとサーバーレスコンピューティング

私たちは最近、ノートブック、ワークフロー、Delta Live Tables(DLT)パイプラインのサーバーレスコンピューティングの一般提供開始を 発表しました 。今日、DLTパイプラインで構築されたETLパイプラインが、サーバーレスコンピュートからどのように利益を得られるかを説明したいと思います。 DLTパイプライン は、シンプルで宣言的なフレームワークを使用して、コスト効率の良いストリーミングとバッチETLワークフローを簡単に構築できます。データの変換を定義し、DLTパイプラインはタスクのオーケストレーション、スケーリング、監視、データ品質、エラーハンドリングを自動的に管理します。 DLTパイプラインのサーバーレスコンピュートは、データ取り込みについては最大5倍のコストパフォーマンスを提供し、複雑な変換については最大98%のコスト節約を提供します。また、DLTクラシックコンピュートに比べて信頼性も向上します。この組み合わせにより、Databricks上で高速かつ信頼性の高いETLを大規模に実現します。このブロ

Mosaic AI Vector Searchのハイブリッド検索の一般提供を開始

Mosaic AI Vector Searchにおけるハイブリッド検索の一般提供開始を発表することを嬉しく思います。ハイブリッド検索は、事前に訓練された埋め込みモデルの強みとキーワード検索の柔軟性を組み合わせた強力な機能です。このブログ投稿では、ハイブリッド検索がなぜ重要で、どのように機能し、どのようにして検索結果を改善するためにそれを使用できるかを説明します。 ハイブリッド検索の理由は何ですか? 事前学習済みの埋め込みモデルは、非構造化データを表現する強力な方法であり、意味を圧縮し、簡単に検索可能な形式で捉えます。しかし、それは外部データを使用して訓練されており、あなたのデータについての明確な知識はありません。ハイブリッド検索は、ベクトル検索インデックスの上に学習したキーワード検索インデックスを追加します。キーワード検索インデックスはあなたのデータで訓練されており、そのため、あなたの検索状況に重要な名前、製品キー、その他の識別子についての知識を持っています。 ハイブリッド検索を選ぶタイミング ハイブリッド検索は

Delta Live Tablesを使用してフルテーブルスナップショットからの変更データキャプチャ(CDC)を実行する方法

すべてのコードは このGitHubリポジトリ で利用可能です。 このブログを読む前に、 Delta Live Tablesの始め方 と Databricks Delta Live Tablesで変更データキャプチャを簡素化する を読むことをお勧めします。これらの記事では、Delta Live Tables(DLT)の宣言的なETL定義とステートメントを使用して、スケーラブルで信頼性の高いパイプラインを作成する方法について説明しています。 イントロダクション Oracle、MySQL、またはデータウェアハウスなどの外部リレーショナルデータベースから Databricksデータインテリジェンスプラットフォーム へのデータの同期は、一般的なユースケースです。Databricksは、LakeFlow Connectのシンプルで効率的な取り込みコネクタから、変更データキャプチャ(CDC)入力データセットを受け入れるDelta Live Tables(DLT)の柔軟性を持つAPPLY CHANGES...

Databricksデータウェアハウス Brickbuilder移行ソリューションが、企業のデータと分析の民主化を支援

August 22, 2024 マイケル・ラム による投稿 in
今日、私たちはデータウェアハウスBrickbuilder移行ソリューションのローンチを発表することを嬉しく思います。これは Brickbuilderプログラム の拡張で、Databricksパートナーエコシステムの経験と知識をパッケージ化し、事前に構築されたコード、モジュラーフレームワーク、カスタムサービスを提供して、組織が Databricksデータインテリジェンスプラットフォーム の全潜在能力を引き出すのを支援します。組織がますますデータに依存して生産性を向上させ、イノベーションを推進するため、Databricksへの移行により、データ湖とデータウェアハウスの最良の機能を一つのプラットフォームに統合することで、効果的なデータ管理、利用、データとAIへのアクセスを実現することができます。 パートナーソリューションとアクセラレータで構成されるBrickbuilderプログラムは、 業界 と 移行ソリューション に焦点を当てて始まり、すぐに レイクハウス と Unity Catalogアクセラレーター を含むように

Databricksワークフローの最新アップデート

Databricksワークフロー はDatabricksデータインテリジェンスプラットフォームの土台であり、世界中の数千の組織の重要なデータとAIのワークロードを動かす オーケストレーションエンジン として機能します。これを認識して、Databricksは現代のデータエンジニアリングとAIプロジェクトの進化するニーズを満たすために、ワークフローの進化に投資を続けています。 この夏、私たちはこれまでで最大の Data + AI Summit を開催し、Databricksワークフローにいくつかの画期的な機能と強化を発表しました。Data + AI Summitで発表された最近のアップデートには、新たなデータ駆動型トリガー、AI支援のワークフロー作成、強化されたSQL統合などが含まれており、これらはすべて信頼性、スケーラビリティ、使いやすさの向上を目指しています。また、自動管理のためのIaC(インフラストラクチャ・アズ・コード)ツールであるPyDABsやTerraform、そしてワークフローのサーバーレスコンピューテ

Delta Sharing Tableauコネクタを使用してリアルタイムのクロスプラットフォームコラボレーションを実現する

Kevin Glover、Martin Ko、Kuber Sharma、Tableauのチームにこのブログへの貴重な洞察と貢献に感謝します。 組織は、協力を促進し、イノベーションを推進するために、パートナー、顧客、およびサプライヤーとデータを共有する必要があります。しかし、これらの多様でしばしば孤立したデータセットをデータプラットフォーム間でアクセス、共有、保護する現実は、しばしば摩擦と複雑さを生み出し、協力を阻害します。これに対処するために、DatabricksとLinux Foundationは Delta Sharing を導入しました。これは、プラットフォームに依存しないデータ共有のための最初のオープンソースプロトコルで、組織がデータプラットフォームと組織の境界を超えて協力を安全に拡大することを可能にします。 プラットフォーム間でのデータ共有を可能にし、データ駆動型の洞察を民主化するという元々の約束を果たすために、DatabricksとTableauは最近パートナーシップを拡大し、 新しいDelta Sh

データの魔法:AI/BI Genieのためのデータキュレーション

August 20, 2024 イザベル・ジョウ による投稿 in
今年の夏、MBAのインターンシップ中に、私はいくつかのデータプロジェクトに取り組みました。私のお気に入りのプロジェクトは、 AI/BI Genie を使用して、私たちの戦略チームのための「バーチャルアナリスト」を構築することでした。 AI/BI Genieは、ユーザーが自然言語でデータに話しかけ、SQL生成のデータテーブルとチャートを返す新しいテキストからSQLへのデータ分析ツールです。適切に設定し、キュレーションすれば、ビジネスユーザーはデータ分析クエリを実行することができます。AIの基礎モデルに基づいて構築され、Unity Catalogガバナンスプラットフォームと完全に統合されています。 データキュレーションプロセス 今日の企業には、散在するテーブルに多くのデータが存在します。特定の情報を引き出すためには、しばしばSQL(または他の同等の言語)を使ってテーブルを検索、マージ、クリーニングし、ダッシュボードをコンパイルし、データを引き出す必要があります。 インターンシップの一環として、私はこれらの複雑なプロセ

AI/BI Genieの利用を開始する

Databricksでは、地球上のすべての人々がデータとAIにアクセスできるようにしたいと考えています。これが、ビジネスユーザーが、SQLを話すこともコードを書くこともなく、信頼できる洞察を迅速かつ正確に得ることができるようにする AI/BI のようなソリューションを構築している理由です。 現在、ダッシュボードはほとんどの人々の日常生活の一部となっています。一方、 AI/BI Genie は新しい経験であり、まだ多くの人々が馴染みがないかもしれません。Genieを使用すると、ユーザーは自己サービスで、ダッシュボードで対処されていない質問に対する答えを得ることができ、BIツールの使用方法を学んだり、専門家に洞察を作成してもらうことなく、答えを得ることができます。この背景を踏まえて、ジニーの一日を見てみると、どのように使用するか、何を期待するかを理解するのに役立つかもしれません。 「新入社員」としてのGenieへのオリエンテーション 一部の人々は、Genieを作成するプロセスを、新しいアナリストをデータチームに雇うこ