データレイクとデータウェアハウスの違いとデータレイクハウスへの進化
このブログは、Forest Rim Technology(フォレスト・リム・テクノロジー社)のデータチームの寄稿によるものです。同社の創業者兼 CEO ビル・インモン氏、最高データ戦略責任者メアリー・レビンズ氏の貢献に感謝します。 最初の課題 ビッグデータを扱う人が最初に直面したデータの課題は、整合性でした。データの量が少なく、ソースのバリエーションも限られていた頃は、構造化データのテーブルで構成されたリレーショナルデータベース(RDB・関係データベース)の使用で事足りていましたが、アプリケーションが普及するようになると、複数のアプリケーションに同じデータが異なる値で現れ、データの整合性がとれないという課題が発生しました。どのデータが正しいかを判断するには、数あるアプリケーションの中から、どのバージョンのデータを使うべきかを見極めなくてはなりません。もしユーザーが適切なバージョンのデータを使用できなければ、判断を誤ってしまう可能性もあります。 意思決定に適切なデータを使用するために、単純なリレーショナルデータベー