Delta Lake
動画の内容
Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを 実現します。
このデモでは、Delta Lakeの動作と主な機能をご紹介します:
- ACID トランザクション
- DELETE/UPDATE/MERGEのサポート
- バッチ/ストリーミングの両方に対応
- タイムトラベル
- クローンゼロコピー
- 生成されたパーティション
- CDF(変更データフロー)(DBRランタイム)
- Delta 3.0:Liquid Clusteringを使用した超高速クエリ、自動的にスキューなしでパーティションを作成します
- Delta 3.0: ユニバーサルフォーマットにより、他のフォーマットがネイティブにDelta Lakeテーブルを読み込むことができ、ロックイン(ユニフォーム)が不要
デモをインストールするには、無料のDatabricksワークスペースを取得し、Pythonノートブックで以下の2つのコマンドを実行してください。
Dbdemosは、ワークスペースに完全なDatabricksデモをインストールするPythonライブラリです。Dbdemosはノートブック、Delta Live Tablesパイプライン、クラスター、Databricks SQLダッシュボード、ウェアハウスモデルをロードして開始します... dbdemosの使い方をご覧ください
DbdemosはGitHubプロジェクトとして配布されています。
詳細について は、GitHubのREADME.mdファイルをご覧いただき、ドキュメンテーションに従ってください。
Dbdemosはそのまま提供されています。詳細はライセンスと通知をご覧ください。
Databricksは、dbdemosおよび関連資産に対して公式のサポートを提供していません。
問題が発生した場合は、チケットを開いてデモチームがベストエフォートで対応します。