データサイロとは?
データは企業にとって最も価値のある資産の1つですが、その価値は企業がいかにデータを活用して、インパクトと収益を生み出すビジネス上の意思決定を行えるかにかかっています。データサイロは、企業がデータの全体像を把握することを妨げ、そのギャップはリーダーのデータ駆動型意思決定能力に影響を与える可能性があります。
「サイロ」という名前は、農場で異なる穀物を別々の容器に保管するサイロのイメージを想起させるかもしれません。データサイロも企業内でのデータの同様の分離を指します。異なるチームが独自にデータを収集、管理、保存し、アクセスは特定のグループ内に限定されることが多いのです。時には製品部門や職務機能に基づいて分離が設計されることもありますが、企業買収によってデータサイロが生まれることもあります。
多くの組織では、データはタイプ別にサイロ化されています。この場合、構造化データは複数のデータウェアハウスに、オンプレミスとクラウドの両方に保存されます。一方、非構造化データやストリーミングデータは、データレイクに別途保存されます。この分離によってデータ管理が複雑になり、組織がデータから得られる価値が制限されます。
データサイロはなぜ問題なのか?
データサイロが問題となるのは、データの可視性とアクセスを妨げ、非効率性とコストを増大させ、効果的なガバナンスを阻害し、重要な洞察を見逃すことにつながるためです。
企業のデータが別々のグループが管理する複数の独立したシステムに分散している場合、すべてのデータへのアクセスは困難、あるいは不可能です。集計データの分析も困難です。チームは多くの場合、調整が難しい重複データや、ギャップを生む欠落データに苦労します。また、構造化データと非構造 化データが異なる場所に保存されていると、高度な機械学習機能やGenAIイニシアチブの実装が困難になります。組織はまた、サイロ化されたデータに対処するために複数のガバナンスモデルを必要とし、セキュリティとコンプライアンスのリスクが増大します。
データサイロを取り除くことで、リーダーは企業全体を把握し、重複と非効率を減らし、ガバナンスを効率化し、AIの機能を最大限に活用してデータ駆動型の意思決定を行うことができます。
データサイロのビジネスコスト
データサイロのある従来のアーキテクチャから現代のデータレイクハウスへの移行により、企業はデータ全体を把握できるようになり、コストも削減できます。データが複数のチームにサイロ化されている場合、各チームは固有のデータニーズをサポートするためのインフラストラクチャとITスタッフのコストを負担する必要があります。データを一元化することで、企業はテクノロジースタックを統合し、管理・保守のコストを削減できます。
データレイクハウスなどの現代のデータアーキテクチャは、企業が計算コストを制御するのに役立つ、向上した柔軟性とスケーリングを提供します。必要な計算クラスターに基づいて動的にスケールアップ・ダウンするDatabricksのようなクラウドソリューションでデータ準備やアドホック分析を実行することで、企業は未使用の計算リソースに対して支払うことがなくなります。例えば、Delta LakeとDatabricksに移行することで、Relogixはインフラコストを80%削減しました。
データサイロはどのように発生するか?
データサイロは多くの場合、企業の組織図に似ており、異なるビジネスユニットや製品グループによってデータが分離されると発生します。この分離は、データ管理へのアプローチの違いや、特定のデータを機密に保ちたいという要望によって強化されることがあります。しかし、データの機密性は適切なアクセス制御によってより良く達成できます。また、エンジニアリング、マーケティング、財務などの分野では、データのニーズと優先順位が異なるため、職種によってデータがサイロ化されることもあります。
一部のチームは、単に十分なコミュニケーションを取らないため、作業が重複していることに気付いていないところもあります。コミュニケーション不足により、チームは他のチームのニーズを認識せず、他のチームが見たいと思うデータを持っていることに気付かないこともあります。チームが独自にデータ管理と収集のアプローチを開発するにつれて、サイロは成長し、データを独立して保存することで、意図せずに互換性のないシステムを開発し、データの共有を困難にします。
データ サイロは組織のサイロを反映しているだけでなく、多くの場合、すべてのデータはタイプ別にサイロ化されて保存されています。構造化データは複数のオンプレミスおよびクラウド データ ウェアハウスに保存されますが、AI に使用される非構造化データはデータ レイクに保存されます。これらのアーキテクチャ パターンにはそれぞれ独自のガバナンス モデルが必要であり、組織がデータに安全にアクセスし、競争上の優位性を高める AI の洞察にデータを使用する能力が制限されます。
データサイロの特定方法
データサイロは、日常的なビジネス運営で発生するユースケースを通じて有機的に特定されることが多いです。チームは特定のデータへのアクセスが欠如していることや、データを見つけられないことに気付きます。従業員はレポートをまとめるのにかかる時間と手作業の労力について不満を漏らすかもしれません。リーダーは異なるチームから、不一致、重複、またはギャップのある類似のレポートを受け取るかもしれません。チームはより多くのコントロールやデータへの迅速なアクセスを得るために、典型的なデータツール以外でデータを保存・追跡し始めるかもしれず、これによってデータの重複やオフラインコピーが生まれます。
企業はデータ監査を実施することで、積極的にデータサイロを特定できます。企業全体の様々なデータソースを慎重に追跡し文書化することで、リーダーはデータ管理と保存の状況を明確に理解できます。これを出発点として、一元化されたデータモデルへの移行を計画できます。サイロが除去され一元化されたアーキテクチャが整備されたら、定期的に小規模なデータ監査を実施して新しいサイロを検出し、迅速に中央データリポジトリに戻すことができます。
データサイロの解消方法
データサイロが特定されたら、企業はそれらを解消し、一元化された共有ストレージソリューションに向けて移行するための手順を開始できます。
クラウドストレージソリュ ーションは、一元化されたデータを単一の場所にスケーラブルに保存する方法を提供しますが、AmazonやAzureなどの従来のクラウドソリューションは、多くの場合ストレージダンプ(共有ストレージの使用方法に関する体系的な構造や共通理解のない、データを置くだけの共有場所)になってしまいます。
クラウドデータウェアハウスは、スキーマ定義を通じて、より高度な秩序と理解をもたらします。定義されたスキーマにより、データを分類・整理して、より大きな分析的洞察を可能にします。ただし、これらのスキーマの定義と維持には時間がかかり、単一のスキーマでビジネスが必要とするすべてのデータタイプをサポートすることは困難な場合があります。
データレイクは、データスキーマを必要とせず、画像、ビデオ、音声、ドキュメントなどの非構造化データや半構造化データを含むすべてのデータタイプをサポートできるため、データウェアハウスよりも柔軟です。この柔軟性により、チームはデータ管理の実践を大きく変更することなく、単一の中央ストレージロケーションに移行することが容易になります。データレイクはまた、様々な形式のデータの分析を可能にし、データウェアハウスのコストとベンダーロックインに関する懸念に対処することができます。
データレイクにより、一部の企業は高価な独自のデータウェアハウスソフトウェアからデータレイクに移行することができました。データレイクはまた、データウェアハウスでは不可能だった大量の非構造化データの分析を可能にし、機械学習も可能にしました。
しかし、データレイクはトランザクションをサポートせず、多くの企業が必要とするセキュリティ機能が欠如しています。また、データが増加するにつれてパフォーマンスの問題が発生する可能性があります。データウェアハウスはこれらの機能面でより信頼性が高いものの、構造化データのみをサポートし、データレイクやデータレイクハウスのようなオープンフォーマットでは利用できません。
データレイクハウスは、データレイクのスケールと柔軟性と、データウェアハウスのトランザクションサポートとガバナンスを組み合わせ、データサイロを真に解消する高度なAIと分析シナリオを可能にします。データレイクハウスにより、ユーザーは単一のプラットフォームでBI、SQLアナリティクス、データサイエンス、AIのすべてを行うことができます。レイクハウスは、データレイクの開放性とスケールを維持しながら、信頼性、パフォーマンス、品質というデータウェアハウスの属性を追加することで、データレイクの構築に対する意見を持ったアプローチを取ります。
レイクハウスは、Delta LakeやApache Icebergのようなオープンソースのテーブル形式に基づいて構築されています。これにより、チームは構造化、半構造化、非構造化データをデータレイクに保存し、ベンダーロックインを防ぐポータブルな形式を使用することができます。これらの形式は、ACID準拠のトランザクション、スキーマの強制、データの検証を提供します。
オープンデータレイクハウスを採用する際に組織が直面する主要な 課題の一つは、データの最適な形式を選択することです。あらゆるオープンフォーマットは、データを独自のフォーマットに入れるよりも優れています。しかし、標準化するための単一のストレージ形式を選ぶことは困難な課題であり、決定疲れや取り返しのつかない結果を恐れることがあります。
Delta UniForm(Delta Lake Universal Formatの略)は、追加のデータコピーやサイロを作成することなく、テーブル形式をシームレスに統一する簡単で実装しやすいソリューションを提供します。UniFormを使用すると、Delta LakeのテーブルをIcebergのテーブルとして読み込むことができるため、Delta LakeまたはIcebergのエコシステムで動作する任意の計算エンジンを使用することができます。
データサイロが生み出す別の課題は、内部や外部のコラボレーションが制限され、情報やイノベーションの流れが制約されることです。これらのサイロを解消し、データレイク、データベース、ウェアハウス、カタログ全体で統一された信頼できるソースを確立することで、組織はオープンなAPIを使用して任意の計算エンジンやツールからデータとAI資産へのシームレスなアクセスを容易にすることができます。ここでDatabricks Unity Catalogが、データとAIのための業界唯一の統一されたオープンガバナンスソリューションとして登場します。
Unity Catalogを使用すると、組織は、構造化および非構造化データ、AIモデル、ファイルなどのデータとAI資産を、任意のクラウドまたはプラットフォームでシームレスに管理することができます。これにより、データサイエンテ ィスト、アナリスト、エンジニアが安全にデータを発見、アクセス、共有でき、AIを通じて生産性を向上させることができます。Unity Catalogは、相互運用性を促進し、データイニシアチブを加速することで、規模に応じたコラボレーションを簡素化し、ベンダーロックインを避けることができます。
Extract, Transform, Load(ETL)ツール
Extract, Transform and Load (ETL) プロセスは、チームがデータを標準化し、共有するのに役立ちます。ETLツールは、既存のサイロからデータを中央の場所、例えばデータレイクハウスに移動するために活用することができます。エンジニアは、ETLパイプラインを構築して、リアルタイムの取り込みを継続的に管理し、共有の中央ストレージに入ってくるデータの品質管理を維持することができます。
文化の変革
データサイロを解消し、その再発を防ぐには、文化の変革と、システムとプロセスを一元化されたデータストレージの使用に移行する方法についての慎重な計画も必要です。チームが新しいデータストレージソリューションの採用を妨げているギャップや技術的課題を理解することは、全員の賛同を得るために重要であり、変更管理の決定に影響を与えます。理想的には、新しいプロセスは、企業の要件とデータニーズの進化に応じて適応できる、スケーラブルで柔軟なものであるべきです。
追加のガバナンスとデータ管理ポリシーを導入することで、新しいデータサイロの発生を防ぐことができます。ポリシー、基準、手順に関する明確な文書化は、チームが共有の中央ストレージ内でデータを管理し続けるために不可欠です。定期的なデ ータ監査を実施することで、プロセスのギャップや文化的変革を遂げていない企業の領域を迅速に特定できます。
経営陣のサポートと管理職の支持を得ることは、文化的変革を達成するための鍵となります。短期的および長期的な明確なメリットを示すことで、より広範な変革への支持を得やすくなります。より容易になる、あるいはコストが削減される現在のデータタスクを明確にし、現代のアーキテクチャが可能にする新しい機能を強調することが重要です。