メインコンテンツへジャンプ

データインテリジェンスとは

データインテリジェンスは、人工知能(AI)システムを活用してデータを学習、理解、推論するプロセスであり、カスタム AI アプリケーションの作成を可能にし、企業全体でのデータアクセスを民主化します。

Databricks についてさらに詳しく

データインテリジェンスプラットフォームを探る

ETL、データウェアハウス、BI、AI の迅速な実行を可能にします。

読む

データインテリジェンスによる業界革新

データインテリジェンスによるデータと AI の民主化を詳しく解説しています。

レポートを読む

無料トレーニング:Databricks レイクハウスの基礎

無料のオンデマンドトレーニングを受講して、レイクハウスについて学ぶ

今すぐスタート

データインテリジェンスの仕組み

データインテリジェンスは、生成 AI と従来の AI モデルの両方を活用して、組織のエンタープライズデータとその利用方法について包括的な理解を深める手法です。データカタログ、SQL クエリ、BI ダッシュボード、ノートブック、データパイプライン、ドキュメントなど、組織内のさまざまなデータソースから得られたシグナルを学習することで実現されます。このアプローチにより、ビジネスの概念、セマンティクス、独自のデータ環境を深く理解することができます。その結果、AI は、公開されたインターネットデータでトレーニングされた大規模言語モデル(LLM)を使用するよりも、はるかに正確な回答を提供できるようになります。

データインテリジェンスを利用するメリット

データインテリジェンスは組織に次のようなメリットをもたらします。

  • 自然言語でデータと AI を活用して生産性を向上させる:AI モデルを活用したデータインテリジェンスにより、各組織の専門用語や略語に合わせた自然言語でデータを扱うことができます。 データインテリジェンスは、既存のワークロードでデータがどのように使用されているかを観察して組織の用語を学習し、専門家でないユーザーからデータサイテンティストやエンジニアまで、あらゆるユーザーにカスタマイズされた自然言語インターフェースを提供します。
  • データと AI 資産のセマンティックカタログ作成と発見を改善:生成 AI は、各組織のデータモデル、メトリクス、KPI を理解し、比類のない発見機能を提供し、データの使用方法の矛盾を自動的に特定します。
  • データ管理と最適化を自動化:データインテリジェンスモデルは、データの使用状況に基づいてデータの配置、パーティショニング、インデックスを最適化できるため、手作業によるチューニングやノブ設定の必要性が軽減します。
  • ガバナンスとプライバシーを強化する:データインテリジェンスは、企業は自然言語を使用してデータ管理を簡素化し、機密データを自動的に検出、分類し、悪用を防止できます。
  • AI ワークロードにファーストクラスのサポートを提供:データインテリジェンスは、関連するビジネス・データに接続し、学習したセマンティクス(メトリクス、KPI など)を活用して適切かつ正確な結果を提供できるようにすることで、エンタープライズ AI アプリケーションを強化します。データインテリジェンスを使用することで、プロンプトエンジニアリングに試行錯誤する必要がなくなり、安定した成果を得ることができるようになります。

データインテリジェンスのユースケース

データインテリジェンスは、金融、ヘルスケア、エネルギーなど、さまざまな業界で活用され、ビジネスのあり方を変革しています。ここでは、データインテリジェンスが企業の顧客理解、プロセスの改善、不正行為の検出などにどのように役立っているかを示す例をいくつかご紹介します。

  • 金融:金融リスクの管理、経済動向の予測、規制遵守の徹底にデータインテリジェンスを活用しています。銀行やその他の金融機関は、データを分析して信用力を評価し、不正行為を特定し、顧客を分類します。
  • 小売業・CPG:データインテリジェンスを活用して顧客の嗜好を理解し、在庫管理を改善し、サプライチェーンを最適化し、個々の顧客向けにマーケティング戦略をパーソナライズします。
  • 政府・公共機関:公共機関では、データインテリジェンスがサービスの向上と情報に基づいた政策決定に不可欠です。政府機関は、経済状況の変化を監視し、サービス提供を改善するためにデータを使用しています。
  • 保険:リスクの評価、保険料の設定、不正請求の検出にデータインテリジェンスを活用しています。大規模なデータセットを分析することで、リスクをより明確に把握し、保険金請求プロセスを効率化します。
  • ヘルスケア:データインテリジェンスを応用して、患者ケアの強化、コスト管理、研究を行っています。データ分析は、医療上の意思決定をサポートし、効果的な治療法の特定に役立ちます。
  • エネルギー:エネルギー分野では、企業はデータ分析を使ってエネルギー使用量を監視・予測し、送電網の効率を向上させています。

データインテリジェンスのアプリケーションは業界によって異なるかもしれませんが、共通の目標は、データから価値あるインサイトを引き出し、それを活用してビジネスの成長や顧客体験の向上を図ることです。

データインテリジェンスプラットフォームを可能にする主要技術

データインテリジェンスプラットフォームは、データレイクハウス(データレイクとデータウェアハウスの最良の機能を組み合わせたもの)を基盤としたアーキテクチャであり、全てのデータとガバナンスのためのオープンで統一された基盤を提供します。これは、組織のデータの特性を理解するデータインテリジェンスエンジンによって駆動されます。データインテリジェンスプラットフォームを支える主要な技術には以下が含まれます。

  1. オープンで統一されたデータストレージ
    • クラウドストレージサービス:Amazon S3、Google Cloud Storage、Azure Data Lake Storage など、拡張性とコスト効率に優れたストレージを提供します。
    • オープンデータ形式:Delta Lake UniForm や Apache Iceberg を含むオープンソースのストレージレイヤーは、Parquet のようなデータフォーマットに ACID トランザクションを導入し、信頼性の高いデータ運用と管理を可能にします。
  2. オープンメタデータとガバナンスサービス
    • Unity Catalog:データレイクハウスにオープンデータガバナンスとメタデータ管理を提供。
    • Hive メタストア:Hive テーブルやデータベースのメタデータを保存する中央リポジトリ。データの発見と管理を容易にする。
  3. 分散データ処理
    • Apache Spark™ と Spark 構造化ストリーミング:バッチ処理とリアルタイムストリーム処理をサポートする大規模データ処理用の統合分析エンジン。
  4. クエリエンジン
    • Databricks Photon:データインジェスト、ETL、ストリーミング、データウェアハウス、データサイエンス、インタラクティブなクエリを低コストで実現する次世代エンジン。データレイク上で直接実行することが可能。
  5. 機械学習と MLOps
    • MLflow:実験、再現性、デプロイメントを含む ML のライフサイクルを管理するオープンソースプラットフォーム。
    • Mosaic AI:機械学習ワークフローの最適化と自動化により、従来の AI モデルと生成 AI モデルの開発と導入を加速するツール。
  6. 複合 AI システム
    • 複合 AI システムは、データカタログ、ダッシュボード、ノートブック、データパイプライン、ドキュメントなど、組織のデータプラットフォームからのシグナルを使用して、組織のデータ、使用パターン、ビジネスコンセプトを理解する、高度に専門化された精度の高い生成 AI モデルを作成します。
用語集に戻る