LakeFlow Connectで実現:SQL Server、Salesforce、Workdayからのデータ取り込み
SQL Server、Salesforce、Workday用のLakeFlow Connectのパブリックプレビューを発表することを楽しみにしています。これらの取り込みコネクタは、データベースやエンタープライズアプリからのシンプルで効率的な取り込みを可能にします。これは、インクリメンタルなデータ処理とスマートな最適化によって支えられています。LakeFlow Connectはデータインテリ ジェンスプラットフォームのネイティブ機能であるため、サーバーレスコンピューティングとUnity Catalogガバナンスの両方を提供します。つまり、組織がデータの移動に費やす時間を減らし、それから価値を得るための時間を増やすことができるということを意味します。
より広範に言えば、これはData + AI Summitで発表した取り込み、変換、オーケストレーションの統一ソリューションであるLakeFlowを用いて、Databricks上のデータエンジニアリングの未来を実現するための重要なステップです。LakeFlow Connectは、変換のためのLakeFlow Pipelinesと、オーケストレーションのためのLakeFlow Jobsとシームレスに連携します。これらを組み合わせることで、顧客はビジネスに対してより新鮮で高品質なデータを提供することが可能になります。
データ取り込みの課題
組織は、エンタープライズアプリ、データベース、メッセージバス、クラウドストレージなど、さまざまなデータソースを持っています。各ソースの微妙な違いに対応するため、組織はしばしばカスタムのデータ取り込みパイプラインを構築し、維持しますが、これにはいくつかの課題が伴います。
- 複雑な設定とメンテナンス:データベースへの接続は難しく、特にソースシステムに影響を与えずに行うのは困難です。また、常に変化するアプリケーションAPIを学び、維持し続けるのは難しいです。したがって、カスタムパイプラインの構築、最適化、メンテナンスには多大な労力が必要であり、結果的にパフォーマンスを制限し、コストを増加させる可能性がありま す。
- 特化したチームへの依存性:この複雑さを考えると、データ取り込みパイプラインは、高度にスキルを持ったデータエンジニアを必要とすることがよくあります。これは、データ消費者(例えば、HRアナリストや財務プランナー)が専門のエンジニアリングチームに依存していることを意味し、これにより生産性とイノベーションが制限されます。
- 限定的なガバナンスを伴うパッチワークソリューション:パイプラインのパッチワークでは、ガバナンス、アクセス制御、可観測性、および系統を構築するのが難しいです。これにより、セキュリティリスクやコンプライアンスの課題、さらには問題のトラブルシューティングに困難が生じる可能性があります。
LakeFlow Connect:シンプルで効率的な全チーム向けのデータ取り込み
LakeFlow Connectはこれらの課題に対処し、あらゆる専門家が簡単に大規模なインクリメンタルデータパイプラインを構築できるようにします。
LakeFlow Connectは設定やメンテナンスが簡単です
まず、コネクターの設定はわずか数ステップで完了します。さらに、コネクタを設定すると、完全にDatabricksによって管理されます。これにより、メンテナンスのコストが低減されます。データ取り込みに特化した知識が必要なくなり、データが組織全体で民主化されることを意味します。
「Salesforceコネクタは設定が簡単で、データレイクへのデータ同期を可能にします。これにより、開発時間と継続的なサポート時間が大幅に節約され、移行がより迅速になりました」 - Martin Lee 氏、テクノロジーリードソフトウェアエンジニア、Ruffer
LakeFlow Connectは効率的
LakeFlow Connectのパイプラインは、効率的なインクリメンタル処理を目指して設計されたDelta Live Tablesを基に構築されています。さらに、多くのコネクタはソースシステムで変更されたデータのみを読み書きします。最後に、Arcionのソース特化型技術を活用して、各コネクタのパフォーマンスと信頼性を最適化し、ソースシステムへの影響を制限します。
データの取り込みは最初のステップに過ぎないため、そこで止まりません。また、メダリオンアーキテクチャを通じてデータが処理されるにつれて、効率的なマテリアライズドビューを構築することもできます。具体的には、Delta Live Tablesは、ビューへの更新をインクリメンタルに処理できます。つまり、すべての行を完全に再計算するのではなく、変更が必要な行のみを更新します。時間とともに、これにより変換のパフォーマンスが大幅に向上し、結果としてエンドツーエンドのETLパイプラインがより効率的になります。
「コネクターは、SalesforceとDatabricksの間でシームレスで堅牢な統合を提供することで、データ転送能力を強化します。データの抽出と準備にかかる時間が約3時間からわずか30分に短縮されました」- Amber Howdle-Fitton 氏、データと分析マネージャー、Kotahi
LakeFlow Connectはデータインテリジェンスプラットフォームのネイティブ機能
LakeFlow Connectは、お使いのDatabricksツール群と完全に統合されています。ユーザーのデータやAIアセットと同様に、Unity Catalogによって管理され、サーバーレスコンピューティングを使用したDelta Live Tablesによって強化され、Databricks Workflowsで調整されます。これにより、取り込みパイプライン全体での統一された監視のような機能が可能になります。さらに、これらはすべて同じプラットフォームの一部であるため、Databricks SQL、AI/BI、およびMosaic AIを使用してデータを最大限に活用できます。
「Databricksの新しいLakeFlow Connector for SQL Serverを使用すると、ソースデータベースとDatabricksの間の [...] 中間製品を排除することができます。これにより、データの取り込みが速くなり、コストが削減され、サードパーティのCDCソリューションの設定、維持、監視にかかる労力が減ります。この機能は、データパイプラインを効率化することで大いに利益をもたらすでしょう」— Kun Lee 氏、シニアディレクターデータベース管理者、CoStar
LakeFlowのロードマップ
最初のコネクタ群は、APIを介してSQL Server、Salesforce、Workdayのパイプラインを作成できます。しかし、このパブリックプレビューは始まりに過ぎません。今後数ヶ月間で、以下の追加データソースへのコネクタのプライベートプレビューを開始する予定です:
- ServiceNow
- Google Analytics 360
- SharePoint
- PostgreSQL
- オンプレミスのSQL Server
ロードマップには、各コネクターの機能セットを深化させるものも含まれています。次のような種類があります。
- コネクタ作成のUI
- データリネージ
- SCDタイプ2
- 堅牢なスキーマ進化
- データサンプリング
より広範に言えば、LakeFlow ConnectはLakeFlowの最初のコンポーネントに過ぎません。今年後半には、変換用のLakeFlow Pipelinesとオーケストレーション用のLakeFlow Jobsのプレビューを予定しています。これらは、それぞれDelta Live TablesとWorkflowsの進化形です。これらが利用可能になったら、移行は必要ありません。これらの新機能に備える最善の方法は、今日からDelta Live TablesとWorkflowsを使用し始めることです。
LakeFlow Connectの開始方法
SQL Serverコネクタ:Azure SQL DatabaseおよびAWS RDS for SQL Serverからの取り込みをサポートし、変更データキャプチャ(CDC)および変更追跡技術を使用した増分読み取りを提供します。SQL Server Connectorについて詳しく学びましょう。
Salesforceコネクタ: Salesforce Sales Cloudからのデータ取り込みをサポートし、これらのCRMの洞察をデータインテリジェンスプラットフォームのデータと結合して、追加の洞察とより正確な予測を提供します。Salesforceコネクタについて詳しく学びましょう。
Workdayコネクタ:Workday Reports-as-a-Service (RaaS)からの取り込みをサポートし、レポートを分析し、エンリッチできます。Workdayコネクタについて詳しく学びましょう。
「LakeFlow Connectに提供されるSalesforceコネクタは、私たちにとって非常に重要で、Salesforceデータベースへの直接接続を可能にし、追加の有料中間サービスの必要性を排除しました。」- Amine Hadj-Youcef 氏、ソリューションアーキテクト、Engie
プレビューにアクセスするには、Databricksのアカウントチームに連絡してください。
LakeFlow ConnectはDelta Live Tablesのためのサーバーレスコンピューティングを使用していることに注意してください。したがって:
- お使いのアカウントでサーバーレスコンピューティングを有効にする必要があります(AzureまたはAWSの設定方法を参照し、AzureまたはAWSのサーバーレス対応地域のリストを参照してください)
- お使いのワークスペースはUnity Catalogを有効にする必要があります。
詳細なガイダンスについては、LakeFlow Connectのドキュメンテーションを参照してください。