メインコンテンツへジャンプ

BigQuery が Delta Lake をファーストパーティでサポートします

BigQuery 上の Delta Lake: Delta Lake に保存されたデータを BigQuery 内の他の形式のデータと組み合わせ、削除ベクトルなどの高度な機能をサポートします。
ジョナサン・ブリトー
バヴィン・クカディア
スーザン・ピアース
Share this post

Delta Lakeは毎月 2,000 万回以上ダウンロードされており、Delta Lakeのファーストパーティ サポートが追加されたBigQuery は、 Deltaの豊富なコネクタ エコシステムをベースとし、 Databricksとシームレスに統合されています。このブログでは、次の内容を取り上げます。

 

  • Google Cloud上のDelta Lake
  • DatabricksとBigQueryを使用したオープンなデータレイクハウスの構築
  • BigQuery で Delta Lake を読み取る方法

Google Cloud上のDelta Lake

Delta Lake最適化されたストレージ レイヤーであり、エンタープライズ データレイクのパフォーマンスと信頼性を強化します。Delta Delta は、 Fortune 500 企業の 60% を含む 10,000 社以上の企業で使用されています 。完全にオープンソース化されたLinux Foundationのプロジェクトとして、Delta Lakeは、多くの一般的なオープンソースフレームワークと商用エンジンのサポートによる豊富なコネクタエコシステムを提供しています。BigQueryは現在、統合されたDelta Lakeサポートを提供し、Delta LakeエコシステムをGoogle Cloudに拡張しています。

 

BigQueryサポートにより、単一のデータコピーからDeltaを記述し、引き続き Google Cloudネイティブ サービスのダウンストリームにアクセスできます。 BigQueryのDeltaコネクタにはDelta削除ベクトル列マッピングリキッドクラスタリングなどの最新の Delta イノベーションのサポートが含まれています

DatabricksとBigQueryのレイクハウス

レイク ハウス アーキテクチャは、 データレイクの柔軟性とデータウェアハウスの信頼性を兼ね備えています。BigQuery のDelta Lake サポートは BigLake を通じて有効になります 。 BigLake は、顧客がクラウド オブジェクト ストレージ上にオープン テーブル形式でデータを保存できるようにするストレージ エンジンであり、 他のプラットフォームでも使用できる柔軟性を提供します。顧客は、Delta LakeとBigLakeを使って、データウェアハウスとデータレイクを統合ストレージレイヤーに集約することができます。

アーキテクチャ図

Delta Lakeでデータレイクを標準化することで、次のことが可能になります。

  • データ アクセスを統合:エクスポート、コピー、マニフェスト ファイルの使用を必要とせずに、Databricks と BigQuery の両方でクエリできるデータの単一の信頼できるコピーを維持します。
  • データを効率的に共有: BigQuery、Databricks、Dataproc、Dataflow などのさまざまな処理エンジン間でデータをシームレスに共有し、効率的なデータ活用とコラボレーションを実現します。
Google CloudのデータおよびAIテクノロジー パートナーシップ担当ディレクターの Ritika Suri 氏は、次のように述べています。「Google Cloudは、オープンで相互運用可能なデータ エコシステムの促進に取り組んでいます。」 「BigQuery に Delta Lake のサポートを追加したことは、データ管理のための包括的なクラウド ソリューション セットを備えたオープン プラットフォームを提供するという当社の取り組みの証です。」

BigQuery で Delta Lake を読む

ほんの 数ステップ で BigQuery で Delta Lake を読み取ることができます 。まず、Databricks で Delta テーブルを作成しましょう。

CREATE TABLE main.default.DeltaLake_demo

LOCATION 'gs://mybucket/mydata/mytable/'

AS (SELECT * FROM samples.nyctaxi.trips );

BigQueryのテーブルにアクセスするには、 クラウド ストレージへの クラウド リソース接続 と BigQuery での 必要な権限が BigQueryに必要です。URI として Delta Lake プレフィックスを指定して、BigQuery で Delta Lake テーブルを作成します:

CREATE EXTERNAL TABLE myProject.dataset.DeltaLake_demo

WITH CONNECTION `myProject.us.myConnection`

OPTIONS (

  format ="DELTA_LAKE",

  uris = ["gs://mybucket/mydata/mytable/"]

)

Delta テーブルをクエリすると、BigQuery はプレフィックスの下のデータを読み取り、テーブルの現在のバージョンを識別します。BigQuery はデータとスキーマの変更を自動的に検出するため、テーブル メタデータを手動で更新しなくても最新のスナップショットを読み取ることができます。

SELECT * FROM myProject.dataset.DeltaLake_demo

BigQuery で Delta Lake を読み取るのはとても簡単です。 Delta Lake を使用すると、データ ファイルを複製したり、テーブル メタデータを手動で維持したりすることなく、Databricks と BigQuery の両方を使用でき、最新の Delta の機能も活用できます。

 

Databricks では、Delta Lake を通じてエンタープライズ データへのオープン アクセスを実現できることを嬉しく思っています。 当社は、Google Cloudとのパートナーシップに引き続き投資し、お客様がDatabricksをBigQueryやその他の Google Cloud サービスと統合できるよう支援します。

 

Delta Lakeと Google Cloudとのパートナーシップの詳細については、2024 年 6 月 10 日から 13 日まで開催されるData and AI Summitのセッションでご覧いただけます。セッションはサンフランシスコでライブ配信され、ハイブリッド形式の仮想セッションとなります。

 

Databricks 無料トライアル

関連記事

Databricksが2024 Google Cloud Partner of the Year Awardを受賞

April 8, 2024 ケイティ・カミンスキー による投稿 in
Databricksが、データ - 人工知能と機械学習部門で2024年のGoogle Cloud テクノロジー パートナー オブ ザ イヤーを受賞したことを発表できることを嬉しく思います。この賞は、Google Cloudを活用して効率性を高め、コストを削減し、イノベーションを推進しているトップパートナーを表彰するものです。 この成果は、Google Cloudとシームレスに統合された統合データ インテリジェンス プラットフォームを提供するという当社のパートナーシップの強さと取り組みを強調しています。 この承認は、共通の顧客にGoogle Cloud上でシームレスで最先端のデータとAIエクスペリエンスを提供するというDatabricksの献身的な姿勢を強調しています。 Databricksの使命は、Google Cloudを利用するすべてのお客様にデータインテリジェンスを提供することで、企業が独自のAIシステムを構築するために独自のデータを理解し、利用できるようにすることです。 このミッションは、Databric
エンジニアリングのブログ一覧へ