データレイクとデータウェアハウスの違いとデータレイクハウスへの進化

ビッグデータを扱う人が最初に直面したデータの課題は、整合性でした。データの量が少なく、ソースのバリエーションも限られていた頃は、構造化データのテーブルで構成されたリレーショナルデータベース(RDB・関係データベース)の使用で事足りていましたが、アプリケーションが普及するようになると、複数のアプリケーションに同じデータが異なる値で現れ、データの整合性がとれないという課題が発生しました。どのデータが正しいかを判断するには、数あるアプリケーションの中から、どのバージョンのデータを使うべきかを見極めなくてはなりません。もしユーザーが適切なバージョンのデータを使用できなければ、判断を誤ってしまう可能性もあります。

ご登録