データブリックス、データエンジニアリングのための統合インテリジェント・ソリューション「Databricks LakeFlow」を発表
June 12, 2024
データベース、エンタープライズアプリ、クラウドソースからデータを取り込み、SQLとPythonを使用したほぼリアルタイムのバッチ処理と変換により、本番環境への導入と運用が可能に
データとAIの企業であるDatabricks(以下データブリックス)は6月12日、データの取り込みから変換、オーケストレーションに至るまで、データエンジニアリングのあらゆる側面を統合し簡素化する新たなソリューション「Databricks LakeFlow(以下LakeFlow)」を発表しました。
データ担当チームは、LakeFlowを使用することによって、MySQL、Postgres、Oracleなどのデータベースや、Salesforce、Dynamics、Sharepoint、Workday、NetSuite、Google Analyticsといったエンタープライズアプリケーションから、シンプルかつ効率的に大規模なデータ取り込むことができます。データブリックスはまた、超低レイテンシーでのストリーム処理を可能にするApache Spark™ のリアルタイムモードの導入も発表しました。
LakeFlowは、CI/CDのビルトインサポートと、トリガー、ブランチ、条件実行をサポートする高度なワークフローにより、本番環境でのパイプラインのデプロイ、運用、監視を大規模に自動化します。データ品質チェックと健全性監視が内蔵されており、PagerDutyのようなアラートシステムと統合されています。LakeFlowは、複雑なデータエンジニアリングのユースケースに対応しながら、プロダクショングレードのデータパイプラインの構築と運用をシンプルかつ効率的に行い、データ担当チームが多忙な中でも、信頼性の高いデータとAIに対する需要の高まりに対応できるようにします。
信頼性の高いデータパイプラインの構築と、運用における課題への取り組み
データエンジニアリングは、ビジネスにおけるデータとAIの民主化に不可欠ですが、依然として難しく複雑な分野です。データ担当チームは、データベースやエンタープライズアプリケーションなど、サイロ化され独自化されたシステムからデータを取り込まなければならず、多くの場合、複雑で壊れやすいコネクタを作成する必要があります。さらに、データ準備には複雑なロジックを維持する必要があり、障害やレイテンシーの急増は、業務の中断や顧客満足度の低下につながります。パイプラインの導入やデータ品質の監視には通常、また別のツールが必要になり、プロセスはさらに複雑になります。既存のソリューションは断片的で不完全なものが多いため、データ品質や信頼性、コストの面で問題が生じたり、作業のバックログが増加したりしてしまいます。
LakeFlowは、データブリックスの「データ・インテリジェンス・プラットフォーム」上に構築された単一のユーザー体験でデータエンジニアリングのあらゆる側面を簡素化しており、エンドツーエンドのガバナンスを実現する「Unity Catalog」との深い統合と、効率的でスケーラブルな実行を可能にするサーバーレスコンピュートによって、上記のような課題を克服しています。
LakeFlowの主な特長
あらゆるデータソースからシンプルかつスケーラブルにデータを取り込む「LakeFlow Connect」: 「LakeFlow Connect」は、MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Dynamics、Sharepoint、Workday、NetSuiteなどのエンタープライズアプリケーション向けの、ネイティブでスケーラブルなコネクタを幅広く提供します。これらコネクタはUnity Catalogと完全に統合されており、堅牢なデータガバナンスを備えています。LakeFlow Connectは、2023年11月にデータブリックスが買収したArcionの低レイテンシーで高効率な機能を取り入れており、サイズ、フォーマット、場所を問わず、全てのデータをバッチ分析やリアルタイム分析で利用できるようにします。
リアルタイムデータパイプラインを簡素化し自動化する「LakeFlow Pipelines」: データブリックス の拡張性の高い Delta Live Tables テクノロジー上に構築された 「LakeFlow Pipelines」 により、データ担当チームは SQL または Python でデータ変換と ETL を実装できます。利用者はコードを変更することなく、低レイテンシーストリーミングのためのリアルタイムモードを有効にすることができます。LakeFlow は手作業によるオーケストレーションの必要性を排除し、バッチ処理とストリーム処理を統合し、漸進的なデータ処理により最適なコストパフォーマンスを実現します。LakeFlow Pipelinesは、複雑なストリーミングデータやバッチデータの変換もシンプルに構築し、簡単に運用することができます。
データインテリジェンスプラットフォーム全体でワークフローをオーケストレーションする「LakeFlow Jobs」: 「LakeFlow Jobs」は、ノートブックやSQLクエリのスケジューリングから、機械学習(ML)のトレーニングやダッシュボードの自動更新に至るまで、自動化されたオーケストレーション、データのヘルス&デリバリーを提供します。パイプラインの信頼性を高めるために、データの問題を検出し診断、緩和するための、強化された制御フロー機能と完全な観測可能性を提供します。LakeFlow Jobsは、データパイプラインのデプロイ、オーケストレーション、モニタリングを単一の場所で自動化し、データ担当チームがデータデリバリーに求められる期待に応えることを容易にします。
提供について
LakeFlowによりデータエンジニアリングの未来は統合され、さらにインテリジェントなものとなります。LakeFlow Connectを始めとして、LakeFlowは間もなくプレビューに入ります。ウェイティングリストへはこちらから登録ください。
データブリックスについて
データブリックスはデータとAIの企業です。Comcast、Condé Nast、Grammarly、そしてFortune 500の60%以上を含む世界中の10,000以上の組織が、データ、アナリティクス、およびAIを統合し民主化するために、データブリックスのデータインテリジェンスプラットフォームを利用しています。米国カリフォルニア州サンフランシスコに本社を置き、世界中にオフィスを構えるデータブリックスは、Lakehouse、Apache Spark™ 、Delta Lake、MLflowのクリエイターによって創立されました。