BigQuery が Delta Lake をファーストパーティでサポートします
Delta Lakeは毎月 2,000 万回以上ダウンロードされており、Delta Lakeのファーストパーティ サポートが追加されたBigQuery は、 Deltaの豊富なコネクタ エコシステムをベースとし、 Databricksとシームレスに統合されています。このブログでは、次の内容を取り上げます。
- Google Cloud上のDelta Lake
- DatabricksとBigQueryを使用したオープンなデータレイクハウスの構築
- BigQuery で Delta Lake を読み取る方法
Google Cloud上のDelta Lake
Delta Lakeは最適化されたストレージ レイヤーであり、エンタープライズ データレイクのパフォーマンスと信頼性を強化します。Delta Delta は、 Fortune 500 企業の 60% を含む 10,000 社以上の企業で使用されています 。完全にオープンソース化されたLinux Foundationのプロジェクトとして、Delta Lakeは、多くの一般的なオープ ンソースフレームワークと商用エンジンのサポートによる豊富なコネクタエコシステムを提供しています。BigQueryは現在、統合されたDelta Lakeサポートを提供し、Delta LakeエコシステムをGoogle Cloudに拡張しています。
BigQueryサポートにより、単一のデータコピーからDeltaを記述し、引き続き Google Cloudネイティブ サービスのダウンストリームにアクセスできます。 BigQueryのDeltaコネクタにはDelta削除ベクトル、列マッピング、リキッドクラスタリングなどの最新の Delta イノベーションのサポートが含まれています。
DatabricksとBigQueryのレイクハウス
レイク ハウス アーキテクチャ は、 データレイクの柔軟性とデータウェアハウスの信頼性を兼ね備えています。BigQuery のDelta Lake サポートは BigLake を通じて有効になります 。 BigLake は、顧客がクラウド オブジェクト ストレージ上にオープン テーブル形式でデータを保存できるようにするストレージ エンジンであり、 他のプラットフォームでも使用できる柔軟性を提供します。顧客は、Delta LakeとBigLakeを使って、データウェアハウスとデータレイクを統合ストレージレイヤーに集約することができます。
Delta Lakeでデータレイクを標準化することで、次のことが可能になります。
- データ アクセスを統合:エクスポート、コピー、マニフェスト ファイルの使用を必要とせずに、Databricks と BigQuery の両方でクエリできるデータの単一の信頼できるコピーを維持します。
- データを効率的に共有: BigQuery、Databricks、Dataproc、Dataflow などのさまざまな処理エンジン間でデータをシームレスに共有し、効率的なデータ活用とコラボレーションを実現します。
Google CloudのデータおよびAIテクノロジー パートナーシップ担当ディレクターの Ritika Suri 氏は、次のように述べています。「Google Cloudは、オープンで相互運用可能なデータ エコシステムの促進に取り組んでいます。」 「BigQuery に Delta Lake のサポートを追加したことは、データ管理のための包括的なクラウド ソリューション セットを備えたオープン プラットフォームを提供するという当社の取り組みの証です。」
BigQuery で Delta Lake を読む
ほんの 数ステップ で BigQuery で Delta Lake を読み取ることができます 。まず、Databricks で Delta テーブルを作成しましょう。
BigQueryのテーブルにアクセスするには、 クラウド ストレージへの クラウド リソース接続 と BigQuery での 必要な権限が BigQueryに必要です。URI として Delta Lake プレフィックスを指定して、BigQuery で Delta Lake テーブルを作成します:
Delta テーブルをクエリすると、BigQuery はプレフィックスの下のデータを読み取り、テーブルの現在のバージョンを識別します。BigQuery はデータとスキーマの変更を自動的に検出するため、テーブル メタデータを手動で更新しなくても最新のスナップショットを読み取ることができます。
BigQuery で Delta Lake を読み取るのはとても簡単です。 Delta Lake を使用すると、データ ファイルを複製したり、テーブル メ タデータを手動で維持したりすることなく、Databricks と BigQuery の両方を使用でき、最新の Delta の機能も活用できます。
Databricks では、Delta Lake を通じてエンタープライズ データへのオープン アクセスを実現できることを嬉しく思っています。 当社は、Google Cloudとのパートナーシップに引き続き投資し、お客様がDatabricksをBigQueryやその他の Google Cloud サービスと統合できるよう支援します。
Delta Lakeと Google Cloudとのパートナーシップの詳細については、2024 年 6 月 10 日から 13 日まで開催されるData and AI Summitのセッションでご覧いただけます。セッションはサンフランシスコでライブ配信され、ハイブリッド形式の仮想セッションとなります。