メインコンテンツへジャンプ

Databricks LakeFlowの登場: データエンジニアリングのための統一されたインテリジェントソリューション

データベース、企業アプリ、クラウドソースからデータを取り込み、バッチおよびリアルタイムストリーミングで変換し、自信を持って本番環境にデプロイおよび運用できます。
Share this post

Translation Review by saki.kitaoka

本日、私たちはDatabricks LakeFlowを発表します。これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。

さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプロイできます。Databricks LakeFlowはData Intelligence Platformにネイティブに組み込まれており、サーバーレスコンピュートとUnity Catalogによる統一ガバナンスを提供します。

LakeFlow
LakeFlow is the one unified data engineering solution for ingestion, transformation and orchestration

このブログ記事では、LakeFlowがデータチームが信頼性の高いデータとAIの増大する需要に応えるのにどのように役立つか、そしてLakeFlow の主要機能が単一の製品エクスペリエンスに統合されている理由について説明します。

信頼性の高いデータパイプラインの構築および運用する際の課題

データエンジニアリング - 新鮮で高品質かつ信頼性の高いデータを収集し準備すること - は、ビジネスにおけるデータとAIの民主化に必要不可欠です。しかし、これを実現するには多くの複雑さが伴い、多くの異なるツールを統合する必要があります。

まず、データチームは各システムの形式やアクセス方法に合わせて複数のシステムからデータを取り込む必要があります。これには、データベースや企業アプリケーション用の内部コネクタを構築および維持することが含まれます。企業アプリケーションのAPI変更に対応するだけでも、データチーム全体のフルタイムの仕事になることがあります。その後、データをバッチおよびストリーミングで準備する必要があり、トリガーおよびインクリメンタル処理のための複雑なロジックを記述および維持する必要があります。レイテンシの急増や障害が発生すると、通知が鳴り、データ消費者が不満を感じ、ビジネスに支障をきたし、最終的には収益に影響を与えることもあります。最後に、データチームはこれらのパイプラインをCI/CDを使用してデプロイし、データ資産の品質とリネージを監視する必要があります。通常、これにはPrometheusやGrafanaなどの新しいツールをデプロイ、学習、管理する必要があります。

このような理由から、データインテリジェンスに基づいたデータの取り込み、変換、オーケストレーションの統一ソリューションであるLakeFlowを構築することにしました。その3つの主要コンポーネントは次のとおりです:LakeFlow Connect、LakeFlow Pipelines、LakeFlow Jobsです。

LakeFlow Connect:シンプルでスケーラブルなデータ取り込み

LakeFlow Connectは、MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーションからのポイント&クリックデータ取り込みを提供します。LakeFlow Connectはまた、SharePointなどのソースからのPDFやExcelスプレッドシートなどの非構造化データの取り込みも可能です。

LakeFlow Connectは、クラウドストレージ(例:S3、ADLS Gen2、GCS)やキュー(例:Kafka、Kinesis、Event Hub、Pub/Subコネクタ)およびパートナーソリューション(例:Fivetran、Qlik、Informatica)の人気のあるネイティブコネクタを拡張します。

LakeFlow Connectors
Setup an ingestion pipeline in a few easy steps with LakeFlow Connect

特にデータベースコネクタについては、Arcion 社の買収によって実現されたものであり、多くの貴重なデータが運用データベースに閉じ込められている状況を解消します。運用およびスケーリングの問題を抱えるナイーブなアプローチを取る代わりに、LakeFlowは変更データキャプチャ(CDC)技術を使用して、このデータをレイクハウスにシンプルかつ信頼性高く、効率的に取り込むことができます。

Databricksの顧客は、LakeFlow Connectを使用してシンプルな取り込みソリューションが生産性を向上させ、データからインサイトへの移行を迅速に行えることを発見しています。ウェアラブルインスリン管理システム「Omnipod」のメーカーであるInsuletは、Salesforce取り込みコネクタを使用して、顧客のフィードバックに関連するデータをDatabricks上に構築されたデータソリューションに取り込んでいます。このデータはDatabricks SQLを通じて分析可能になり、品質問題に関する洞察を得て顧客の苦情を追跡できます。Insuletのチームは、LakeFlow Connectの新機能に大きな価値を見出しています。

「Databricksの新しいSalesforce取り込みコネクタにより、脆弱で問題のあるミドルウェアを排除し、データ統合プロセスが大幅に簡素化されました。この改善により、Databricks SQLでSalesforceデータを直接分析できるようになり、データ担当者は最新のインサイトをほぼリアルタイムで提供できるようになり、レイテンシが日単位から分単位に短縮されました。」
— Bill Whiteley, Senior Director of AI, Analytics, and Advanced Algorithms, Insulet

LakeFlow Pipelines:効率的な宣言型データパイプライン

LakeFlow Pipelinesは、効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを低減します。宣言型Delta Live Tablesフレームワークに基づいて構築されており、ビジネスロジックをSQLとPythonで記述するだけで、Databricksがデータオーケストレーション、インクリメンタル処理、コンピュートインフラの自動スケーリングを自動化します。さらに、LakeFlow Pipelinesは組み込みのデータ品質監視を提供し、リアルタイムモードを使用して、コード変更なしで時間依存のデータセットの一貫して低レイテンシのデリバリーを可能にします。

LakeFlow Pipelinesはデータパイプラインの自動化を簡素化します
LakeFlow Pipelines simplifies data pipeline automation

LakeFlow Jobs:あらゆるワークロードに対応する信頼性の高いオーケストレーション

LakeFlow Jobsは、Databricks Workflowsの高度な機能を基に構築されており、取り込み、パイプライン、ノートブック、SQLクエリ、機械学習のトレーニング、モデルデプロイおよび推論など、あらゆるワークロードをオーケストレーションします。データチームは、トリガー、分岐、ループを活用して、複雑なデータデリバリーのユースケースに対応できます。

LakeFlow Jobsは、データのヘルスチェックとデリバリー状況を理解および追跡するプロセスも自動化および簡素化します。データチームには、取り込み、変換、テーブル、ダッシュボード間の関係を含む完全なリネージュを提供し、データの鮮度と品質を追跡できます。Lakehouse Monitoringを使用してワンクリックでモニターを追加することもできます。

データインテリジェンスプラットフォーム上に構築

Databricks LakeFlowは、次の機能を提供するデータインテリジェンスプラットフォームにネイティブに統合されています:

  • データインテリジェンス:AI駆動のインテリジェンスは、LakeFlowの特徴だけでなく、製品のすべての側面に触れる基盤能力です。Databricks Assistantは、データパイプラインの発見、作成、監視を支援し、信頼性の高いデータを構築するための時間を増やします。
  • 統一ガバナンス:LakeFlowはUnity Catalogと深く統合されており、系譜とデータ品質を強化します。
  • サーバーレスコンピュート:スケールに応じてパイプラインを構築およびオーケストレーションし、インフラを気にせずに作業に集中できるようにします。

データエンジニアリングの未来はシンプルで統一され、インテリジェントです

私たちは、LakeFlowが顧客に新鮮で、より完全で高品質なデータを提供できるようにすると信じています。LakeFlowはまもなくプレビューを開始し、まずLakeFlow Connectからスタートします。アクセスをリクエストする場合は、こちらにサインアップしてください。今後数か月間、追加機能が利用可能になるにつれて、LakeFlow に関するさらなる発表が予定されています。おたのしみに!

Databricks 無料トライアル

関連記事

Databricks + Arcion: Lakehouseへのリアルタイムエンタープライズデータレプリケーション

我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了 したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの 投資先企業としても、長年にわたって緊密に協力してきました。 この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。 リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI

簡素化された XML データ取り込みの発表

Databricks で XML データの取り込み がネイティブにサポートされるようになりました。 XML は、製造、医療、法律、旅行、金融などのさまざまなユースケースで複雑なデータ構造を表すための一般的なファイル形式です。 これらの業界がアナリティクスとAIの新たな機会を見つけるにつれて、大量の XML データを活用する必要性が高まっています。 Databricks の顧客は、このデータをデータ インテリジェンス プラットフォームに取り込み、そこで Mosaic AI や Databricks SQL などの他の機能を使用してビジネス価値を高めることができます。 ただし、回復力のある XML パイプラインを構築するには、多くの作業が必要になる場合があります。...

データエンジニアのための Databricks Assistant のヒントとコツ

生成AI革命はチームの働き方を変えつつあり、Databricks Assistantはこれらの進歩を最大限に活用しています。会話型インターフェイスを介してデータをクエリできるため、 Databricksワークスペース内での生産性が向上します。アシスタントは Databricks用のデータインテリジェンスエンジンであるDatabricksIQ を搭載しており 、データのセキュリティを確保し、応答が正確で、企業の詳細に合わせて調整されていることを確認します。 Databricks Assistantを使用すると 、タスクを自然言語で記述して、開発者のエクスペリエンスを中断することなく、複雑なコードを生成、最適化、またはデバッグできます。 この投稿では、ブログ「 Databricks Assistantを最大限に活用するための5つのヒント 」 を拡張し 、アシスタントが退屈な作業の排除、生産性と没入感の向上、価値実現までの時間の短縮によってデータエンジニアの生活をどのように改善できるかに焦点を当てます。さまざまなデータ
プラットフォームブログ一覧へ