DatabricksとInformaticaによるエンタープライズAIのためのインテリジェントデータエンジニアリング

Intelligent Data Engineering for Enterprise AI with Databricks and Informatica

公開日: October 22, 2024

生成型AIは、組織がデータから価値を引き出す方法に対して大きな可能性を秘めています。しかし、真のインテリジェントデータ管理に根ざした正確で関連性のある結果を確保する周囲の一連の課題もあります。実際、最近のMIT Technologyの600人のCIOを対象とした調査では、エグゼクティブの72％が、データの課題がAI成功を危険にさらす最大の要因であると述べています。その結果、私たちはAIプロジェクトが最優先事項であるが、生産でビジネス価値を実現するのに苦労している顧客と常に話をしています。

DatabricksとInformaticaは、エンタープライズAIアプリケーションのためのインテリジェントなソリューションを提供するために、データ管理の風景を再形成しています。Informaticaのローコード/ノーコードのデータ管理の専門知識を用いて、さまざまなソースシステムからのデータを発見、カタログ化、管理し、DatabricksのAI最適化のインテリジェントデータウェアハウジング機能と組み合わせることで、組織は次のことができます：

インテリジェントなデータパイプラインの開発を加速
データ品質とガバナンスを確保する
スケーラブルなGenAIアプリケーションをデプロイ
ビジネスライン（LOB）を含むすべてのエンドユーザーが自分たちのデータから行動に移せる洞察を得ることを可能にします。

特に、パイプライン開発の加速は、現在のデータチームにとっての主要な価値ドライバーを強調しています。データアクセスを民主化し、データ専門家の生産性を大幅に向上させることで、組織は真にデータ駆動型になることができます。このブログでは、DatabricksとInformaticaがどのようにしてあなたのデータ専門家を強化し、あなたのエンタープライズデータの無限の可能性を引き出すことができるかを探ります。実際、このトピックについては非常に興奮しており、今後のウェビナーをそれに専念することにしました - 詳細はこの投稿の最後にあります。

さて、パートナーシップについて詳しく見てみましょう。

高品質で信頼性のあるAIシステムを構築する上での課題

すべての組織は、価値を引き出したいデータを余剰に持っていますが、その価値を抽出できるリソースは圧倒的に不足しています。大規模な言語モデル（LLM）は、特に、人間らしいテキストを生成し、洞察に満ちた回答を提供するという驚くべき能力を示しています。しかし、その効果はしばしば、常に最新で事実に基づいているとは限らない訓練データの範囲によって制限されます。これは、精度と信頼性が最優先されるプロダクション環境で生成型AIや伝統的なAIアプリケーションをデプロイしようとする企業にとって大きな課題をもたらします。

Databricksでは、GenAIの全潜在能力を解き放つ鍵は、これらのモデルを信頼性のある、企業特有のデータで裏打ちすることにあると考えています。独自のデータとLLMを統合することで、企業はAIの力を活用して、独自のビジネスコンテキストに合わせた貴重な洞察を生成することができます。このアプローチはAIの出力の精度を向上させるだけでなく、幻覚や誤情報に関連するリスクも軽減します。

LLMとエンタープライズデータを組み合わせることで、以下を含むさまざまなビジネスユースケースを革新することができます：

カスタマーサポートボット：現在の企業ソリューションに基づいた顧客の問い合わせに対する正確で文脈に応じた回答を提供します。
内部Q＆Aボット：従業員が最新の組織知識に素早くアクセスできるように支援します。
テキスト生成：企業のブランドガイドラインと文脈に基づいたパーソナライズされたメール、マーケティングコンテンツ、レポートを作成します。
ビジネスインサイト：企業特有の専門用語とメタデータに基づいて大規模なデータセットから行動に移せる洞察を抽出します。

これらのユースケースのための信頼性のあるエンタープライズデータを提供するためには多くの要素が関与していますが、それは信頼性のあるデータパイプラインを提供できるインテリジェントデータエンジニアリングから始まります。これについては、2024年11月のバーチャルイベント、Intelligent Data Engineering: Beyond the AI Hypeで詳しく説明します。

DatabricksとInformatica：AIによるデータ管理

2024年のDatabricksデータ統合パートナー賞の受賞者であるInformaticaは、Databricks Data Intelligence Platform上でクラウドネイティブのデータ統合を提供します。このパートナーシップにより、企業は分散したエンタープライズシステム全体のデータの全ポテンシャルを引き出し、Databricksの先進的なAIシステムを活用してデータエンジニアリングのワークロードの効率とパフォーマンスを向上させることができます。

私たちはInformaticaのIntelligent Data Management Cloud (IDMC)を、レイクハウス上に構築されたDatabricks SQL、インテリジェントウェアハウスと組み合わせて、データ管理のすべての側面を大幅に簡素化し、データエンジニアが企業向けAIのための信頼性の高いデータパイプラインを構築できるようにします。

エンタープライズデータをレイクハウスに統合: 内部および外部のさまざまなデータソース（例えば、Salesforce、Oracleデータベース、Netsuite、MySQLなど）からデータを特定し、Databricks SQLに統合します。顧客はInformaticaで視覚的なマッピングを使用してゼロコストのデータパイプラインを構築し、それが自動的にDatabricks SQLのプッシュダウン用のSQLに変換されます。Informaticaには300以上の事前構築されたコネクタがあり、オンプレミス、クラウド、モダン、レガシーシステムからのデータをDatabricks SQLに取り込み、RAGのようなダウンストリームアプリケーションで簡単にアクセスできるようにします。効率を上げるために、Databricks SQLはAIシステムを使用してワークロードを分析し、パフォーマンスを自動的に向上させます。これにより、データエンジニアはノブなしでパイプラインをより早く構築できます。
信頼できるデータ基盤を構築 - Informatica Cloud Data GovernanceとCatalogは、ビジネスインテリジェンス、データエンジニアリング、マシンラーニングなど、さまざまなドメインのデータを管理するための統一されたガバナンスフレームワークであるUnity Catalogと密接に統合されています。Databricks Data Intelligence PlatformのデータとAIアセットに対して、Unity Catalogはアクセス制御（ユーザーロールに基づくデータアクセスのセキュリティ）、データライニージ（データが各プロセスを通過する流れの追跡）、ディスカバリーとモニタリング（データアセットの識別と追跡を容易にする）、メタデータ管理（データの簡単な取得とコンプライアンスのためのデータの整理とタグ付け）を提供します。Informaticaは、この豊富なメタデータをUnity Catalogからエンタープライズカタログに取り込み、Databricksとオンプレミスの両方のデータを追跡し、そのMaster Data Management (MDM)の提供を通じてデータエンティティの信頼性の高い高精細ビューを保持します。

このトークをチェックして、KPMGがオンプレミスのデータエステートを、DatabricksとInformaticaを使用した将来証明のクラウドベースのエンタープライズデータ機能にどのように変換したかを詳しく学びましょう。

AIアプリケーションのためのデータ変換とキュレーション： Informaticaのメタデータインテリジェンスは、RAGなどのAIシステムで使用される信頼できるデータのみを優先して選択します。IDMCの高度な統合は、さまざまなソースからのシームレスなデータ取り込みをサポートし、データ品質と文脈化を強化してRAGモデルの結果を改善します。InformaticaのDatabricks DBRXのための設計図についてはここで詳しく学びましょう。

2024年11月の無料バーチャルイベントに登録

最近のGenAIのハイプの中で、実際の価値とノイズを分けるのは時々難しいことがあります。AIの価値は信頼できるデータ基盤なしには不可能であり、信頼できるデータ基盤はデータエンジニアリングの近代化アプローチなしには不可能です。インテリジェントデータエンジニアリング：AIハイプを超えてでは、実際のデータインテリジェンスを通じてデータエンジニアリングのアプローチを近代化する方法を探ります。

今日登録してあなたの席を予約し、11月にDatabricksのDistinguished EngineerであるMichael Armbrust氏などのスピーカーが次のことを議論するのを聞きに来てください：

会話型AIを活用して、すべてのデータ専門家がより良いコードを作成し、問題を診断し、修正するのを支援します
摂取、変換、オーケストレーションを一つの効率的なソリューションに統合する
さまざまなデータソースへのネイティブでスケーラブルなコネクタを使用して、プロダクションインジェストパイプラインの構築と運用を簡素化します

もっと詳しく知りたい方は、こちらから登録してください。

次は何ですか？

January 10, 2025/2分で読めます

Databricksにコレーション機能が登場！

January 31, 2025/1分未満

高品質で信頼性のあるAIシステムを構築する上での課題

DatabricksとInformatica：AIによるデータ管理

2024年11月の無料バーチャルイベントに登録

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricksにコレーション機能が登場！

DeepSeek R1 on Databricks