データウェアハウジングからデータインテリジェンスへ：データが主役となるまで

From Data Warehousing to Data Intelligence: How Data Took Over

Published: November 18, 2024

Summary

組織はデータインテリジェンスの時代に入っています。これは、AIシステムを使用して企業のユニークなデータを理解し、理由をつけるプロセスであり、カスタムAIアプリケーションの作成とデータとAIへのアクセスの民主化を可能にします。
データインテリジェンスの基盤は10年間にわたって作られてきました。データレイクハウスは、ビジネスがより多くのデータを収集し、より多くのユーザーにアクセスを提供し、より多くのユースケースを支えることを可能にした触媒でした。
Gen AIはビジネスの運営方法を根本的に変えるでしょう。企業は、イノベーションに追いつくために適切なデータプラットフォームを選択する必要があります。

現在、生成 AI が注目を集めていますが、ほとんどの企業は10年以上前から、自社の業務においてデータインテリジェンスを実現するために取り組んできました。

統合されたデータ環境、より高速な処理速度、より堅牢なガバナンス - すべての改善は、企業が自社の情報をより有効活用するための一歩前進でした。現在では、あらゆる技術レベルのユーザーが自社のプライベートデータと対話できるようになっています。それは、ビジネスチームが自然言語でデータをクエリする場合でも、データサイエンティストがオープンソースの LLM を迅速かつ効率的にカスタマイズする場合でも同様です。

しかし、データインテリジェンスの機能は進化し続けており、企業が今日確立する基盤は、今後10年間の成功を左右することになります。データウェアハウジングがどのようにしてデータインテリジェンスに変化したのか、そして次のステップは何かを見ていきましょう。

データの初期の時代

デジタル革命以前、企業はより遅く、より一定のペースで情報を収集していました。ほとんどすべてが Oracle、Teradata、Netezza のウェアハウスに整理されたテーブルとして取り込まれ、コンピュートとストレージが結合されていたため、組織ができることは日常的な分析に限られていました。

そしてインターネットが到来しました。突然、データは以前よりも速く、はるかに大量に入ってくるようになりました。そして、データが「新しい石油」とみなされる新しい時代がまもなく始まることになります。

ビッグデータの登場

すべてはシリコンバレーから始まりました。2010年代初頭、Uber、Airbnb、Facebook、Twitter（現X）などの企業がデータを使って非常に革新的な取り組みを行っていました。Databricks もこの黄金時代に設立されました - すべての企業が自社のプライベート情報で同じことができるようにしたいという願いから生まれたのです。

タイミングは完璧でした。その後数年間は「ビッグデータ」という言葉で定義されました。デジタルアプリケーションが爆発的に増加し、企業はこれまで以上にデータを収集し、それらの生のアセットを意思決定やその他の業務に役立つ情報に変換しようとしていました。

しかし、データドリブンな運用モデルへのこの変革において、企業はデータサイロの排除、機密性の高いアセットの保護、より多くのユーザーが情報を基に構築できるようにすることなど、多くの課題に直面していました。そして究極的には、企業はデータを効率的に処理する能力を持っていませんでした。

これがレイクハウスの創造につながりました。レイクハウスは、企業がデータウェアハウスとデータレイクを1つのオープンな基盤に統合する方法です。このアーキテクチャにより、組織は1か所からデータ資産全体をより簡単に管理し、ビジネスインテリジェンス、ML、AI などのすべてのデータソースに対してクエリを実行できるようになりました。

レイクハウスとともに、Apache Spark™ や Delta Lake などの先駆的な技術は、企業が生のアセットを生産性を向上させ、効率を高め、収益を伸ばすのに役立つ実用的なインサイトに変換するのを支援しました。そして、それらは企業を別の独自ツールにロックインすることなく実現しました。私たちは今日もこのオープンソースの遺産の上に構築を続けていることを非常に誇りに思っています。

関連：Apache SparkとDelta Lakeの内部構造

データインテリジェンスの時代の到来

世界は次の技術革命の入り口に立っています。生成 AI は企業がデータと対話する方法を一変させています。しかし、LLM のゲームチェンジングな機能は一夜にして作られたわけではありません。代わりに、データ分析と管理における継続的なイノベーションがこの時点に至る助けとなりました。

多くの点で、データウェアハウスからデータインテリジェンスへの移行は、Databricks 自身の進化を反映しています。データインテリジェンスの進化を理解することは、過去の過ちを避けるために重要です。

ビッグデータ：イノベーションの基盤を築く

データとAIの分野で働く多くの人々にとって、Hadoopはマイルストーンであり、今日の革新につながる多くの進歩の火付け役となりました。

世界がデジタル化したとき、企業が収集していた情報の量は指数関数的に増加しました。すぐに、スケールは伝統的な分析処理を圧倒し、情報は整理されたテーブルに格納されなくなりました。オーディオやビデオファイル、ソーシャル投稿、メールなど、非構造化データや半構造化データが増えました。

企業は、この大量の情報を保存、管理、利用するための異なる、より効率的な方法が必要でした。その答えがHadoopでした。それは基本的に、「分割して統治する」という分析アプローチを採りました。ファイルは分割され、分析され、その後、残りの情報と再びグループ化されました。これは並列に、多くの異なる計算インスタンスで行われました。これにより、企業が大量の情報を処理する速度が大幅に向上しました。データは複製され、アクセスが改善され、基本的には複雑な分散処理ソリューションでの障害から保護されました。

この時代にビジネスが蓄積し始めた巨大なデータセットは、現在、データインテリジェンスとAIへの移行において重要な役割を果たしています。しかし、IT界は大きな変革を迎えており、それがHadoopをあまり役立たなくするものでした。しかし、新たなデータ管理や分析の課題が生じ、情報の保存と処理に革新的な新しい方法が必要となりました。

Apache Spark：新世代の分析を引き金に

その重要性にもかかわらず、Hadoopには大きな欠点がありました。それは技術者しかアクセスできず、リアルタイムのデータストリームを処理できず、処理速度が多くの組織にとって依然として遅すぎ、企業は機械学習アプリケーションを構築できませんでした。言い換えれば、「エンタープライズ対応」ではありませんでした。

それがApache Spark™の誕生につながり、これははるかに高速で、収集される大量のデータを処理することができました。ワークロードがクラウドに移行するにつれて、SparkはすぐにHadoopを追い越し、Hadoopは企業自身のハードウェア上で最も効果的に動作するように設計されていました。

実際には、クラウドでSparkを使用したいというこの願望が、Databricksの創設につながったのです。Spark 1.0は2014年にリリースされ、その後の歴史は皆さんがご存知の通りです。重要なことに、Sparkは2010年にオープンソース化され、私たちのデータインテリジェンスプラットフォームで重要な役割を果たし続けています。

Delta Lake：オープンファイルフォーマットの力

この「ビッグデータ」時代に、企業が初めて直面した課題の一つは、資産を効率的に処理するための構造と組織化の方法でした。Hadoopと初期のSparkは、編集をサポートせず、カタログ機能がほとんどない一度書き込み型のファイル形式に依存していました。企業はますます大量のデータレイクを構築し、新しい情報が絶えず注ぎ込まれていました。データを更新できないことと、Hive Metastoreの機能が限定的であることから、多くのデータレイクがデータスワンプ（データの沼地）になってしまいました。企業は、データを見つけ、ラベルを付け、処理する方法をより簡単かつ迅速に必要としていました。

データを維持する必要性がDelta Lakeの創造につながりました。このオープンファイル形式は、機能、パフォーマンス、信頼性の大幅な向上をもたらしました。スキーマは強制されましたが、すぐに変更することもできました。企業は今、実際にデータを更新することができました。それはACID準拠のトランザクションをデータレイクで可能にし、一元化されたバッチとストリーミングを提供し、企業が分析費用を最適化するのを助けました。

Delta Lakeでは、また、「DeltaLog」と呼ばれるトランザクションレイヤーがあり、これはデータへのすべての変更に対する「真実の源」を提供します。クエリは、変更が進行中であっても、ユーザーがデータの安定したビューを持つことを確認するために、この背後で参照します。

デルタレイクは、企業のデータ管理に一貫性を注入しました。企業は、高品質で、監査可能で、信頼性のあるデータセットを使用していることを確信できました。これにより、企業はより高度な分析と機械学習のワークロードを引き受け、それらのイニシアチブをはるかに迅速にスケールアップすることが可能になりました。

2022年、DatabricksはデルタレイクをLinux Foundationに寄贈しました。そしてそれはDatabricksとオープンソースコミュニティからの大きな貢献と共に、継続的に改善されています。その中には、HudiやIcebergを含む他のOSSファイル形式に影響を与えたDeltaも含まれています。今年、DatabricksはIcebergの創設者によって設立されたデータ管理会社、Tabularを買収しました。

MLflow：データサイエンスと機械学習の台頭

ビッグデータの10年が進むにつれて、企業は自社が丹念に収集してきたすべてのデータをより活用し始めたのは自然なことでした。これにより、ほとんどのビジネス内で分析ワークロードの急増が引き起こされました。しかし、企業は過去を問い合わせることが長らく可能でしたが、今ではデータを分析して未来についての新たな洞察を引き出すことも求められています。

しかし、当時は予測分析技術は小規模なデータセットに対してのみうまく機能しました。これにより、使用ケースが制限されました。しかし、企業がシステムをクラウドに移行し、分散コンピューティングが一般的になるにつれて、より大きなアセットセットを問い合わせる方法が必要となりました。これがデータサイエンスと機械学習の台頭につながりました。

SparkはMLワークロードの自然なホームとなりました。問題は、MLモデルの構築にかかる作業をすべて追跡することでした。データサイエンティストは主にExcelで手動で記録を保持していました。統一されたトラッカーはありませんでした。しかし、世界中の政府は、これらのアルゴリズムの使用増加についてますます懸念を抱くようになりました。ビジネスは、使用中のMLモデルが公平/偏見のないものであり、説明可能で再現可能であることを確認する方法が必要でした。

MLflowがその真実の源となりました。以前は、開発は非常に定義が不明確で、構造化されておらず、一貫性がありませんでした。MLflowは、データサイエンティストが仕事をするために必要なすべてのツールを提供しました。それは、異なるツールをつなぎ合わせたり、Excelで進捗を追跡したりするようなステップを排除し、イノベーションがユーザーにより早く届くのを防ぎ、ビジネスが価値を追跡するのを難しくしました。結局のところ、MLflowはMLモデルの構築と維持のための持続可能でスケーラブルなプロセスを導入しました。

2020年に、DatabricksはMLflowをLinux Foundationに寄贈しました。このツールは、Databricks内外での人気が増し続けており、生成AIの台頭とともにイノベーションのペースは増加し続けています。

データレイクハウス：データの障壁を取り払う

2010年代半ばには、企業はデータを驚異的な速度で収集していました。そしてますます、ビデオやオーディオファイルを含むより広範なデータタイプが増えていました。非構造化データと半構造化データの量が急増しました。これにより、企業のデータ環境はすぐに2つのキャンプ、データウェアハウスとデータレイクに分かれました。そして、それぞれのオプションには大きな欠点がありました。

データレイクを使用すると、企業はさまざまな形式の情報を大量に、安価に保存することができました。しかし、それはすぐに欠点となりました。データスワンプが一般的になりました。重複データが至る所に広がりました。情報は不正確または不完全でした。ガバナンスがありませんでした。そして、ほとんどの環境は複雑な分析クエリを処理するために最適化されていませんでした。

一方、データウェアハウスは優れたクエリパフォーマンスを提供し、品質とガバナンスに最適化されています。それがSQLが依然として支配的な言語である理由です。しかし、それには高いコストがかかります。非構造化データや半構造化データに対するサポートはありません。移動、クレンジング、情報の整理にかかる時間のため、エンドユーザーに届く頃には情報が古くなってしまいます。このプロセスは、AIやMLのワークロードのように、新鮮なデータへの即時アクセスを必要とするアプリケーションをサポートするには遅すぎます。

当時、企業がその境界を越えるのは非常に困難でした。代わりに、ほとんどの企業は各エコシステムを別々に運用していました。各アーキテクチャには異なるガバナンス、異なる専門家、異なるデータが関連していました。その構造は、データ関連の取り組みをスケールアップするのが非常に困難でした。それは大いに非効率的でした。

複数の解決策を同時に、時折重複して運用することは、コストの増加、データの重複、調整の増加、データ品質の問題を引き起こしました。企業は、データエンジニア、科学者、アナリストの複数の重複するチームに大きく依存せざるを得ず、これらの各観客はデータの到着の遅延とストリーミングワークロードの取り扱いに関する課題により苦しんでいました。

データレイクハウスが最良のデータウェアハウスの選択肢として浮上しました - 構造化されたデータと非構造化データの両方を中央で保存、管理、ガバナンスする場所。企業は、データレイクが提供する低コストと柔軟性とともに、ウェアハウスのパフォーマンスと構造を得ることができました。彼らは、クラウド環境、運用アプリケーション、ソーシャルメディアフィードなどから入ってくる大量のデータのためのホームを持っていました。

特筆すべきは、組み込まれた管理とガバナンスレイヤーがあったことです。これを私たちはUnity Catalogと呼んでいます。これにより、顧客はメタデータ管理とデータガバナンスの大幅な向上を実現しました。(Databricksは2024年6月にUnity Catalogをオープンソース化しました。)その結果、企業はデータへのアクセスを大幅に拡大することができました。今では、ビジネスユーザーと技術ユーザーが、一つの中央リポジトリから伝統的な分析ワークロードを実行し、MLモデルを構築することができました。一方、レイクハウスがローンチされたとき、企業は人間の意思決定を補完し、新たな洞察を生み出すなど、AIを使用し始めていました。

データレイクハウスはすぐにその努力にとって重要となりました。データは迅速に消費されることができましたが、適切なガバナンスとコンプライアンスポリシーがまだ存在していました。そして最終的に、データレイクハウスは、ビジネスがより多くのデータを収集し、より多くのユーザーにアクセスを提供し、より多くのユースケースを支えるための触媒となりました。

生成AI / MosaicAI

過去の10年間の終わりまでに、企業はより高度な分析ワークロードを引き受けていました。彼らはより多くのMLモデルを構築し始めていました。そして、彼らは初期のAIユースケースを探り始めていました。

そして、生成AIが登場しました。その技術の驚異的な進歩の速さがITの風景を変えました。ほぼ一夜にして、すべてのビジネスがどのように利用するかをすぐに理解しようとしました。しかし、過去1年間で、パイロットプロジェクトがスケールアップし始めると、多くの企業が同様の問題に直面し始めました。

データエステートはまだ断片化しており、イノベーションを阻害するガバナンスの課題を生み出しています。企業は、支援データが適切に使用され、地元の規制に従っていることを確認できるまで、AIを実世界に導入しません。これがUnity Catalogが非常に人気がある理由です。企業は、労働力全体、およびユーザーレベルで、データエステート全体を保護するための一般的なアクセスと使用ポリシーを設定することができます。

企業は、一般的な目的の生成AIモデルの制限も認識し始めています。これらの基礎的なシステムを組織のユニークなニーズに合わせてカスタマイズすることに対する需要が増えています。2023年6月、DatabricksはMosaicMLを買収し、これにより私たちは、生成AIシステムを構築またはカスタマイズするために必要なツールのスイートを顧客に提供することができました。

情報からインテリジェンスへ

生成AIはデータを使った可能性についての期待を完全に変えました。ユーザーは自然言語のプロンプトだけで、ビジネスに非常に関連性の高い洞察と予測分析に瞬時にアクセスしたいと考えています。

しかし、大規模な一般目的のLLMが生成AIのブームを引き起こした一方で、企業はモデルが持つパラメータの数や達成可能なベンチマークについてはますます関心を持たなくなっています。それらは、ビジネスを本当に理解し、データアセットを競争優位をもたらす出力に変えるAIシステムを求めています。

それが私たちがデータインテリジェンスプラットフォームを立ち上げた理由です。多くの点で、これはDatabricksが過去10年間に向けて取り組んできたすべての頂点です。GenAIの機能を中心に、あらゆる専門知識を持つユーザーが企業のプライベートデータコーパスから洞察を引き出すことができます - すべて組織の全体的なリスクプロファイルとコンプライアンス要件に合わせたプライバシーフレームワークで。

そして、その能力は増大し続けています。私たちはDatabricks Assistantをリリースしました。これは、自然言語を使用してコードを作成、修正、最適化するのを支援するために設計されたツールです。私たちの製品内検索も自然言語によって動かされており、Unity CatalogにはAIが生成したコメントを追加しました。

一方、Databricks AI/BI GenieとDashboards、私たちの新しいビジネスインテリジェンスツールは、技術的背景と非技術的背景を持つユーザーが自然言語のプロンプトを使用してプライベートデータセットから生成し、視覚化する能力を提供します。それは組織全体で分析を民主化し、ビジネスがデータをより深く運用に統合するのを助けます。

そして、新しいMosaicAIツールのスイートが、組織が自身のプライベートデータに基づいて構築し訓練した複合AIシステムを構築するのを支援し、LLMを一般目的のエンジンから、各企業のユニークな文化と運営を反映した特別な洞察を提供するために設計された特化したシステムへと進化させています。私たちは、ビジネスが今日の市場で利用可能な多数のLLMを利用することを容易にし、これらの新しい複合AIシステムの基礎として、RAGモデルやAIエージェントを含む。また、私たちは、LLMをさらに微調整するために必要なツールを提供し、さらにダイナミックな結果を生み出します。そして重要なことに、モデルが一度プロダクションに入った後も継続的なパフォーマンスを確保するために、モデルを継続的に追跡し再訓練するのを支援する機能があります。

ほとんどの組織のデータとAIの会社への旅はまだ終わっていません。実際、それは決して終わりません。継続的な進歩が、組織がますます高度なユースケースを追求するのを助けています。Databricksでは、常に新しい製品や機能を導入して、これらの機会に対応するクライアントを支援しています。

例えば、長い間、対立するファイル形式がデータ環境を分離してきました。UniFormを使用すると、DatabricksのユーザーはDelta LakeとIceberg、最も一般的な2つの形式の間のギャップを埋めることができます。今では、Tabularの買収により、私たちは長期的な相互運用性に向けて取り組んでいます。これにより、顧客はファイル形式を心配する必要がなくなり、最もパフォーマンスの高いAIと分析エンジンを選ぶことに集中できます。

企業がデータとAIを運用全体でより広範に使用し始めると、それはビジネスの運営方法を根本的に変え、さらなる深い投資の新たな機会を解き放つでしょう。これが、企業がデータプラットフォームを選ぶだけでなく、ビジネス全体の未来の神経中枢を選んでいる理由です。そして、彼らは変化のペースに追いつくことができるものが必要です。

一般知識からデータインテリジェンスへのシフトについて詳しく知るには、ガイド生成AI：データインテリジェンスへのシフトを読んでください。

次は何ですか？

Track health and fitness goals with Apple Healthkit & Databricks

May 15, 2023/1分未満

Apple HealthkitとDatabricksで健康やフィットネスの目標を追跡しよう

November 1, 2023/1分未満