メインコンテンツへジャンプ

LakeFlow Connectで実現:SQL Server、Salesforce、Workdayからのデータ取り込み

シンプルで効率的なデータ取り込みコネクターがパブリックプレビューで利用可能に
エリーゼ・ジョリス
ピーター・ポゴルスキー
オリ・ゾハール
Share this post

SQL Server、Salesforce、Workday用のLakeFlow Connectのパブリックプレビューを発表することを楽しみにしています。これらの取り込みコネクタは、データベースやエンタープライズアプリからのシンプルで効率的な取り込みを可能にします。これは、インクリメンタルなデータ処理とスマートな最適化によって支えられています。LakeFlow Connectはデータインテリジェンスプラットフォームのネイティブ機能であるため、サーバーレスコンピューティングとUnity Catalogガバナンスの両方を提供します。つまり、組織がデータの移動に費やす時間を減らし、それから価値を得るための時間を増やすことができるということを意味します。

より広範に言えば、これはData + AI Summitで発表した取り込み、変換、オーケストレーションの統一ソリューションであるLakeFlowを用いて、Databricks上のデータエンジニアリングの未来を実現するための重要なステップです。LakeFlow Connectは、変換のためのLakeFlow Pipelinesと、オーケストレーションのためのLakeFlow Jobsとシームレスに連携します。これらを組み合わせることで、顧客はビジネスに対してより新鮮で高品質なデータを提供することが可能になります。

データ取り込みの課題

組織は、エンタープライズアプリ、データベース、メッセージバス、クラウドストレージなど、さまざまなデータソースを持っています。各ソースの微妙な違いに対応するため、組織はしばしばカスタムのデータ取り込みパイプラインを構築し、維持しますが、これにはいくつかの課題が伴います。

  • 複雑な設定とメンテナンス:データベースへの接続は難しく、特にソースシステムに影響を与えずに行うのは困難です。また、常に変化するアプリケーションAPIを学び、維持し続けるのは難しいです。したがって、カスタムパイプラインの構築、最適化、メンテナンスには多大な労力が必要であり、結果的にパフォーマンスを制限し、コストを増加させる可能性があります。
  • 特化したチームへの依存性:この複雑さを考えると、データ取り込みパイプラインは、高度にスキルを持ったデータエンジニアを必要とすることがよくあります。これは、データ消費者(例えば、HRアナリストや財務プランナー)が専門のエンジニアリングチームに依存していることを意味し、これにより生産性とイノベーションが制限されます。
  • 限定的なガバナンスを伴うパッチワークソリューション:パイプラインのパッチワークでは、ガバナンス、アクセス制御、可観測性、および系統を構築するのが難しいです。これにより、セキュリティリスクやコンプライアンスの課題、さらには問題のトラブルシューティングに困難が生じる可能性があります。

LakeFlow Connect:シンプルで効率的な全チーム向けのデータ取り込み

LakeFlow Connectはこれらの課題に対処し、あらゆる専門家が簡単に大規模なインクリメンタルデータパイプラインを構築できるようにします。

LakeFlow Connectは設定やメンテナンスが簡単です

まず、コネクターの設定はわずか数ステップで完了します。さらに、コネクタを設定すると、完全にDatabricksによって管理されます。これにより、メンテナンスのコストが低減されます。データ取り込みに特化した知識が必要なくなり、データが組織全体で民主化されることを意味します。

数ステップで取り込みパイプラインを作成する

「Salesforceコネクタは設定が簡単で、データレイクへのデータ同期を可能にします。これにより、開発時間と継続的なサポート時間が大幅に節約され、移行がより迅速になりました」 - Martin Lee 氏、テクノロジーリードソフトウェアエンジニア、Ruffer

LakeFlow Connectは効率的

LakeFlow Connectのパイプラインは、効率的なインクリメンタル処理を目指して設計されたDelta Live Tablesを基に構築されています。さらに、多くのコネクタはソースシステムで変更されたデータのみを読み書きします。最後に、Arcionのソース特化型技術を活用して、各コネクタのパフォーマンスと信頼性を最適化し、ソースシステムへの影響を制限します。

データの取り込みは最初のステップに過ぎないため、そこで止まりません。また、メダリオンアーキテクチャを通じてデータが処理されるにつれて、効率的なマテリアライズドビューを構築することもできます。具体的には、Delta Live Tablesは、ビューへの更新をインクリメンタルに処理できます。つまり、すべての行を完全に再計算するのではなく、変更が必要な行のみを更新します。時間とともに、これにより変換のパフォーマンスが大幅に向上し、結果としてエンドツーエンドのETLパイプラインがより効率的になります。

「コネクターは、SalesforceとDatabricksの間でシームレスで堅牢な統合を提供することで、データ転送能力を強化します。データの抽出と準備にかかる時間が約3時間からわずか30分に短縮されました」- Amber Howdle-Fitton 氏、データと分析マネージャー、Kotahi

LakeFlow Connectはデータインテリジェンスプラットフォームのネイティブ機能

LakeFlow Connectは、お使いのDatabricksツール群と完全に統合されています。ユーザーのデータやAIアセットと同様に、Unity Catalogによって管理され、サーバーレスコンピューティングを使用したDelta Live Tablesによって強化され、Databricks Workflowsで調整されます。これにより、取り込みパイプライン全体での統一された監視のような機能が可能になります。さらに、これらはすべて同じプラットフォームの一部であるため、Databricks SQL、AI/BI、およびMosaic AIを使用してデータを最大限に活用できます。

​​「Databricksの新しいLakeFlow Connector for SQL Serverを使用すると、ソースデータベースとDatabricksの間の [...] 中間製品を排除することができます。これにより、データの取り込みが速くなり、コストが削減され、サードパーティのCDCソリューションの設定、維持、監視にかかる労力が減ります。この機能は、データパイプラインを効率化することで大いに利益をもたらすでしょう」
— Kun Lee 氏、シニアディレクターデータベース管理者、CoStar

LakeFlowのロードマップ

最初のコネクタ群は、APIを介してSQL Server、Salesforce、Workdayのパイプラインを作成できます。しかし、このパブリックプレビューは始まりに過ぎません。今後数ヶ月間で、以下の追加データソースへのコネクタのプライベートプレビューを開始する予定です:

  • ServiceNow
  • Google Analytics 360
  • SharePoint
  • PostgreSQL
  • オンプレミスのSQL Server

ロードマップには、各コネクターの機能セットを深化させるものも含まれています。次のような種類があります。

  • コネクタ作成のUI
  • データリネージ
  • SCDタイプ2
  • 堅牢なスキーマ進化
  • データサンプリング

より広範に言えば、LakeFlow ConnectはLakeFlowの最初のコンポーネントに過ぎません。今年後半には、変換用のLakeFlow Pipelinesとオーケストレーション用のLakeFlow Jobsのプレビューを予定しています。これらは、それぞれDelta Live TablesWorkflowsの進化形です。これらが利用可能になったら、移行は必要ありません。これらの新機能に備える最善の方法は、今日からDelta Live TablesとWorkflowsを使用し始めることです。

LakeFlow Connectの開始方法

SQL Serverコネクタ:Azure SQL DatabaseおよびAWS RDS for SQL Serverからの取り込みをサポートし、変更データキャプチャ(CDC)および変更追跡技術を使用した増分読み取りを提供します。SQL Server Connectorについて詳しく学びましょう。

Salesforceコネクタ: Salesforce Sales Cloudからのデータ取り込みをサポートし、これらのCRMの洞察をデータインテリジェンスプラットフォームのデータと結合して、追加の洞察とより正確な予測を提供します。Salesforceコネクタについて詳しく学びましょう。

Workdayコネクタ:Workday Reports-as-a-Service (RaaS)からの取り込みをサポートし、レポートを分析し、エンリッチできます。Workdayコネクタについて詳しく学びましょう。

「LakeFlow Connectに提供されるSalesforceコネクタは、私たちにとって非常に重要で、Salesforceデータベースへの直接接続を可能にし、追加の有料中間サービスの必要性を排除しました。」- Amine Hadj-Youcef 氏、ソリューションアーキテクト、Engie

プレビューにアクセスするには、Databricksのアカウントチームに連絡してください。

LakeFlow ConnectはDelta Live Tablesのためのサーバーレスコンピューティングを使用していることに注意してください。したがって:

  • お使いのアカウントでサーバーレスコンピューティングを有効にする必要があります(AzureまたはAWSの設定方法を参照し、AzureまたはAWSのサーバーレス対応地域のリストを参照してください)
  • お使いのワークスペースはUnity Catalogを有効にする必要があります。

詳細なガイダンスについては、LakeFlow Connectのドキュメンテーションを参照してください。

Databricks 無料トライアル

関連記事

Databricks LakeFlowの登場: データエンジニアリングのための統一されたインテリジェントソリューション

Translation Review by saki.kitaoka 本日、私たちはDatabricks LakeFlowを発表します。これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。 さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプ

ノートブック、ワークフロー、Delta Live Tables 用のサーバーレス コンピューティングの一般提供開始のお知らせ

Translation Reviewed by Hiroyuki Nakazato ノートブック、ジョブ、Delta Live Tables(DLT)のサーバーレスコンピューティングが AWS および Azure で一般提供開始となりましたので、お知らせいたします。お客様は Databricks SQL および Databricks モデル サービング 用の高速でシンプル、かつ信頼性の高いサーバーレス コンピューティングをすでに利用しています。 同じ機能が、Apache Spark や...

簡素化された XML データ取り込みの発表

Databricks で XML データの取り込み がネイティブにサポートされるようになりました。 XML は、製造、医療、法律、旅行、金融などのさまざまなユースケースで複雑なデータ構造を表すための一般的なファイル形式です。 これらの業界がアナリティクスとAIの新たな機会を見つけるにつれて、大量の XML データを活用する必要性が高まっています。 Databricks の顧客は、このデータをデータ インテリジェンス プラットフォームに取り込み、そこで Mosaic AI や Databricks SQL などの他の機能を使用してビジネス価値を高めることができます。 ただし、回復力のある XML パイプラインを構築するには、多くの作業が必要になる場合があります。...
プラットフォームブログ一覧へ