Translation Review by saki.kitaoka
本日、私たちはDatabricks AI/BIの発表を大変楽しみにしています。これは、データの意味を深く理解し、誰でもデータを自ら分析できるように設計された新しいビジネスインテリジェンス製品です。AI/BIは、ETLパイプライン、系統、その他のクエリなど、Databricksプラットフォーム全体のデータのライフサイクルからインサイトを引き出す複合AIシステムに基づいて構築されています。このAI/BIは、次の2つの補完的な製品体験を提供します。
- AI/BIダッシュボード: AI駆動のローコードダッシュボードソリューションで、従来のBI機能をすべて備えており、固定されたビジネス質問に答えるために設計されています。
- Genie: 人間のフィードバックに基づいてデータ とその意味を継続的に学習し、より広範なビジネス質問に答えることができる会話型インターフェースです。データチームによって指定されたクエリパターンについては、確認済みの回答も提供します。
これらの機能により、AI/BIは真のセルフサービスBIへの重要な一歩を踏み出し、日常のユーザーが行える分析の範囲を大幅に拡大します。さらに、Databricksのデータインテリジェンスプラットフォームとの統合により、統一されたガバナンス、系統追跡、安全な共有、およびあらゆるデータ規模での最高のパフォーマンスが保証されます。
ブログの残りの部分では、BIにおいてGenAIがこれまでのところうまく機能しない理由について議論し、AI/BIの設計がこれらの問題を克服できると考える理由を、実世界の証拠を通じて検証します。
GenAIがBIで失敗した理由
過去30年間、ビジネスユーザーは自分のデータ質問に答えるためにレポートやダッシュボードを提供されてきました。しかし、ビジネスが進化するにつれて、これらのユーザーは新しいビジュアライゼーションを作成するために、希少で過労なデータ専門家に依存するようになりました。ビジネスユーザーとデータチームは、この満足のいかない終わりのないサイクルに閉じ込められ、無数のダッシュボードを生成しますが、多くの質問は依然として未回答のままです。
LLM(大規模言語モデル)に対する期待が高まる中、BI業界はBIツールにAIアシスタントを組み込む新しい波を起こしましたが、これらの提供物は現実の世界ではうまく機能しません。実際のデータ分析の複雑さや曖昧な言語に直面すると、これら の「付け焼き刃」のAIエクスペリエンスは有用で正確な回答を提供するのに苦労します。
データベーススキーマにLLMを指してテキストからSQLへの変換を行うだけでは不十分です。スキーマ自体がビジネスプロセスやメトリクスの定義、データの扱い方など、多くの知識を欠いているためです。もう一つのアプローチは、これらの理解を形式的なセマンティックモデルにキャプチャすることですが、これには多大な初期投資が必要であり、すべてのニュアンスを捉えることはできず、データとビジネスプロセスが進化するにつれて更新し続けることは非現実的です。
複合AIシステム
「実際の」セマンティックモデルは人々の頭の中に存在し、Databricksシステムとやり取りするたびにそれが流れ出てきます。Databricks AI/BIは、この理解をDatabricks全体のインタラクションからキャプチャして、データインテリジェンスプラットフォームに既に利用可能なコンテキストを補強し、その結果得られた知識を活用して実世界で有用な回答を提供します。
AI/BIの中核には、ビジネス質問に関する推論を行い、有用な回答を生成するAIエージェントのアンサンブルを利用する複合AIシステムがあります。各エージェントは、計画、SQL生成、説明、ビジュアライゼーション、および結果の認定などの重要なタスクを担当しています。その特異性のおかげで、厳格な評価フレームワークを作成し、最先端のLLMを微調整することができます。さらに、これらのエージェントは、応答ランキングサブシステムやベクターインデックスなどの他のコンポーネントによっ てサポートされています。これらが一体となって、個々の単一モデルをはるかに超える推論能力を提供します。
このシステムは、人間のフィードバックに基づいて継続的に学習し、そのパフォーマンスを向上させるように設計されています。例えば、顧客の解約の定義を伝えられると、AI/BIはその知識を使って類似のクエリ(例えば、EMEA対アメリカの解約顧客)に対応するだけでなく、解約率を計算したり、保持顧客の意味を推測したりすることもできます。AI/BIは、単一の分析や会話を超えてこの知識を保持し、人間のアナリストのようにより優れたものに成長します。また、AI/BIは、ETLパイプライン、系統、人気統計、およびデータに関する他のクエリなど、Databricksプラットフォームに関するその他の情報からも学習します。
この複合AIシステムは、ダッシュボードとGenieの両方を動力源としています。
AI/BIダッシュボード
前述の欠点にもかかわらず、ダッシュボードは定期的に消費されるプリパッケージの分析を運用化する最も効果的な手段であり続けます。AI/BIダッシュボードは、このプロセスを可能な限り簡単にするために設計されており、構成したいデータとチャートを簡単に設定できるAI駆動のローコードオーサリング体験を提供します。
標準的なBI機能(洗練されたビジュアライゼーション、クロスフィルタリング、定期的なPDFスナップショットなど)を備えていますが、不要なものは一切ありません。例えば、煩雑なセマンティックモデル、データエクストラクト、新しいサービスの管理は不要です。さらに、ダッシュボードにないインサイトを探索する ための補完的なGenieスペースへのアクセスもワンクリックで可能です。
Genie
ダッシュボードでは回答されない大量かつ絶えず変化する質問に答えるために、AI/BIの推論エンジンの機能を会話型インターフェースであるGenieを通じて公開します。固定された一連のチャートに限定されることなく、Genieは基礎となるデータを学習し、ユーザーの質問に柔軟に答えることができます。必要に応じて明確化を求め、適切な場合には異なるパスを提案します。
しかし、もっと重要なことは、Genieがただの謎めいたブラックボックスではないことです。ビジネスユーザーが尋ねる質問は高リスクであることが多く、ブラックボックスAIシステムの回答を盲信するべきではありません。そのため、Genieのワークフロー全体は、人間のフィードバックを通じてAIを時間と共に改善するように設計されています。仮定を検証し、必要に応じてギャップを埋めるためのツールを提供します。指示、認定された回答、自信投票、品質監視は、データチームがGenieのパフォーマンスをさらに調整、キュレーション、ベンチマークするのを支援し、ビジネスユーザーに提供される回答が可能な限り信頼性が高いものになるようにします。
また、Genieは「ツール」というエージェント的な概念を利用して信頼性を確保します。「認定された回答」という概念は、分析者が信頼できる管理ロジック(例えばUnity Catalogの機能やメトリクス)をシステムに伝え、それを「ツール」として質問に答えるために使用できるようにします。これにより、システム側で誤ったロジック推論が発生する可能性を排除します。Genieはこれらの「ツール」をAI/BIの推論フレームワークに組み込み、適切に質問に答えるためにそれらを呼び出し、提供された回答の信頼性をユーザーに共有します。
プラットフォーム統合
AI/BIは、私たちのデータインテリジェンスプラットフォームの上に構築されており、密接に統合されています。これにより、AI/BIの機能は以下の通りです。
- 統一されたガバナンスと系統:AI/BIは、Databricks Unity Catalogに深く統合されています。同じガバナンスフレームワークに従い、管理者が設定したグローバルポリシーはAI/BIにも適用されます。また、Unity Catalogの系統機能のおかげで、データプロデューサーや管理者は、AI/BIでデータ資産がどのように使用されているかを観察することができ、エンドユーザーはデータセットの起源をデータ取り込みまで遡って追跡できるため、分析に対する信頼度を高めることができます。
- 新しいユーザーライセンスなしで簡単に共有:AI/BIはDatabricks IAMプラットフォームに組み込まれており、Entra ADやOktaなどのIDPと直接統合されているため、組織内の誰とでも簡単に分析を共有できます。Databricks AI/BIは席ベースの制限がないため、新しいライセンスを調達することを心配することなく、組織内の誰でも追加できます。
- 業界トップのコストパフォーマンス:AI/BIはDatabricks SQLデータウェアハウスおよびPhotonエンジンと緊密に統合されており、高性能なインタラクションを提供するための独自の最適化を含んでいます。データのボリュームに関係なく、メガバイトからペタバイトまで、最高のパフォーマンスを発揮します。
- データ抽出不要:したがって、関心のあるデータセットを別のBIエンジンに抽出する必要がなくなり、データの新鮮さが向上し、データガバナンスも簡素化されます。
実世界での検証
過去数か月間、プライベートプレビューで多くの顧客とともにAI/BIをテストしてきました。AI/BIはすべての質問に即答できる全知のAIではありませんが、初期のフィードバックは非常に好評です。ビジネスユーザーから企業幹部まで、さまざまな背景のユーザーがデータチームへの依存を減らし、より多くの質問に自ら答えることができるようになったと報告しています。
初期の採用者の声をいくつかご紹介します。
Sonatype CTO、Brian Fox氏:「AI/BI Genieを使うことで、過去の努力と比較するとまさに天と地の差です。SQLを本格的に扱うのは20年ぶりですが、AIがデータを取得するのは魔法のようです。今では、SQLを日常的に使う人の助けを借りずに分析を行うことができます。」
SEGA Europe データサービス部長、Felix Baker氏:「SEGAでは、AI/BIを使用して組織全体の意思決定者をサポートしており、ダッシュボードやクエリを作成するためにデータ専門家に依存することなく、リアルタイムで販売やプレイヤーの行動に関するアドホックな質問に答えることができます。ユーザーは自然言語で 質問するだけで、ゲームの売上やプレイデータに関する詳細なインサイトを得ることができました。AI/BIを活用してデータを民主化し、生産性を向上させ、データ駆動型意思決定の速度を向上させることを楽しみにしています。」
Block.xyzアナリティクスエンブレメントリード、Nick Crnkovich氏:「AI/BIダッシュボードを使用すると、追加の接続や抽出を設定することなく、同じプラットフォームでデータの洞察を迅速に生成および配布できます。特に重要なのは、クリエーターが開発プロセスでAIを活用できることと、ビジネスユーザーがデータのフォーカスされたビューを追加の複雑さなしに享受できることです。」
Vattenfall Hydro Germanyエネルギーマーケットおよび資産最適化チームリーダー、Philipp Cüppers氏:「DatabricksのAI/BI製品は、データとインサイトを民主化するための新しいツールを提供してくれました。強化されたダッシュボードは迅速に生成され、共有が容易なため、重要なデータの統一されたビューを提供するための私たちの優先手段となっています。Genieは、ビジネスユーザーがリアルタイムで自分自身の質問に答えることを可能にし、データアナリストに依存することなく、電力市場や資産のパフォーマンスについてライブディスカッションで質問し回答することができます。」
今後の展望
データのライフサイクル全体からインサイトを引き出すことができる複合AIシステムは、ビジネスインテリジェンスの世界に変革をもたらすと信じています。AI/BIの初期リリースは、この可能性を実現するための最初の一歩であり、大きな一歩です。使用が進むにつれて、システムはますます賢くなり、進化します。MosaicAIスタックのおかげで、エンドツーエンドの迅速なイテレーションが可能となりました。
AI/BI Dashboardsは、AWSとAzureで一般提供され、GCPではパブリックプレビュー中です。GenieはAWSおよびAzureのすべての顧客にパブリックプレビューとして提供されており、GCPでの利用も近日中に予定されています。Genieを利用するには、Unity CatalogとDatabricks SQL ServerlessまたはProウェアハウスが必要です。顧客の管理者は、プレビュー管理ページを通じてワークスペースユーザー向けにGenieを有効にできます。両製品とも、ウェアハウスコスト以外に追加料金はかかりません。ダッシュボードを消費するビジネスユーザーには、ライセンス不要のビュー専用アクセスを提供します。
AI/BIの取り組みに加えて、多くのBIパートナーがデータインテリジェンスプラットフォームでのデータ分析を容易にするための革新を行っていることを知っています。私たちは、BIパートナーが標準化しているどのBIツールでも、AIファーストのアプローチから利益を得ることができるように、推論能力とセマンティックモデルをAPIとして公開する可能性に興奮しています。
Databricks AI/BIの詳細については、Web サイトをご覧いただき、Data and AI Summitの基調講演、セッション、詳細コンテンツをご確認ください。Data Warehousing, Analytics and BI sessions at the Data + AI Summitに登録するか、イベント後にオンラインでオンデマンド録画を視聴してください。また、最新のニュースや更新情報については、@DatabricksJPをフォローしてください。