メインコンテンツへジャンプ
Platform blog

翻訳:Junichi Maruyama.  -  Original Blog Link

今日は木曜日で、2023年データ+AIサミットからの発表の週を終えたばかりです。今年のサミットのテーマは「ジェネレーションAI」であり、LLM、レイクハウスアーキテクチャ、そしてデータとAIにおけるすべての最新イノベーションを探求するテーマでした。

最新のジェネレーティブAIのイノベーションを支えるのは、最新のデータエンジニアリングスタックです。

最新のジェネレーティブAIのイノベーションを支えるのは、Delta Lake、Spark、Databricks Lakehouse Platformが提供する最新のデータエンジニアリングスタックです。Databricks Lakehouseは、Delta Live TablesDatabricks Workflowsなどのソリューションにより、高度なデータパイプラインの構築とオーケストレーションの課題に取り組むデータエンジニアを支援する高度な機能を提供します。

このブログ記事では、データ エンジニアリングデータ ストリーミングの主要なハイライトと発表を振り返ります。Databricks Lakehouse Platformにおけるデータエンジニアリングとデータストリーミングの未来を形作ることになる進歩に飛び込んでみましょう。

Delta Live TablesとSpark Structured Streamingによるデータストリーミング

Databricks Lakehouse Platformは、data streamingを劇的に簡素化し、リアルタイム分析、機械学習、アプリケーションを1つのプラットフォーム上で実現します。最も人気のあるオープンソースのストリーミングエンジンであるSpark Structured Streamingを基盤に構築されたDelta Live Tablesのようなツールは、データエンジニアがあらゆるリアルタイムユースケースに対応するストリーミングデータパイプラインを構築できるようにします。

以下は、今週ブログで取り上げたデータ・ストリーミングの最も大きな進展の一部である:

  • Delta Live Tables <> Unity Catalogの統合: Unity CatalogがDelta Live Tablesパイプラインをサポートします!どのデータチームでも、Delta Live Tablesによって生成されたデータ資産に対して、きめ細かいデータガバナンスポリシーを定義し、実行することができるようになりました。詳細はこちら here
  • Databricks SQLマテリアライズド・ビューとストリーミング・テーブル: 最高のデータウェアハウスは、インクリメンタルインジェストと計算でデータエンジニアリングの長所を生かし、セットアップが簡単で新鮮なデータをビジネスに提供するインフラ不要のデータパイプラインを実現します。詳細はこちら here
  • Project Lightspeedの1年: 昨年、私たちはApache Sparkによるストリーム処理の高速化と簡素化に特化したイニシアチブであるProject Lightspeedを発表しました。今年は、サブ秒レイテンシーなどの最近の発表を含め、Project Lightspeedの1年間の革新と進歩を振り返りました。詳しくはこちらをご覧ください here

上記の発表については、この2つのセッション(近日中にオンデマンドで入手可能)で詳しくご紹介します:

Databricksワークフローによるオーケストレーション

Databricks Workflows は、Databricks Lakehouseと完全に統合された統合オーケストレーションツールで、シンプルなワークフローオーサリングエクスペリエンス、実用的な洞察による完全な観測性、そして何千ものDatabricksのお客様から信頼されている実証済みの信頼性を提供し、本番ワークロードをオーケストレーションします。

サミットの中で、ワークフロー製品チームは来年のロードマップを垣間見ることができました。ここでは、今後数ヶ月のロードマップの中で、いくつかのエキサイティングなアイテムをご紹介します:

  • Serverless compute - Databricks Workflows と Delta Live Tables の両方で、データエンジニアのクラスタ構成を抽象化し、 ETL とオーケストレーションをよりシンプルで信頼性が高く、スケーラブルでコスト効率の高いものにします。
  • ワークフローの制御フローを強化 - 完全にパラメータ化され、動的に実行され、モジュール化されたDAGとして定義されるため、効率性が高く、デバッグが容易な、より洗練されたワークフローを作成することができます。
  • チーム間のオーケストレーション - データが更新されたときや、他のチームのワークフローが正常に終了したときにワークフローをトリガーするなど、組織の境界を越えた複雑なデータの依存関係を管理することができます。
  • 簡単なCI/CD、バージョン管理、コードとしてのワークフロー - gitと完全に統合された新しいエンドツーエンドのCI/CDフローと、ワークフローをPythonとして表現する機能を紹介します。

上記セッションの詳細はこちらをご覧ください What's new in Databricks Workflows? (soon available on demand).

カスタマー・モメンタム

データエンジニアリングとデータストリーミングワークロードを実行するための最適な場所として、Databricks Lakehouse Platformに注目する企業が増えています。例えば、ストリーミングジョブの実行数は年間150%以上の成長を続けており、最近では1週間あたり1,000万ジョブを超えました。

Weekly Databricks Streaming Job Runs (Millions)
Weekly Databricks Streaming Job Runs (Millions)

今年のData + AI Summitには1000件以上の講演が寄せられ、その中にはDatabricksのお客様も多数含まれています。Databricksのお客様がデータエンジニアリングやデータストリーミングで行っている素晴らしい仕事の一部をLakehouseでご紹介できることを大変嬉しく思います:

  • Akamai - クラウドベンダーを次のレベルへ: Azure Databricksで複雑な課題を解決する
  • AT&T - 13ペタバイトを超え、数千のユーザーを持つデルタレイクのデータプラットフォームの構築と管理
  • Block - デルタ・ライブ・テーブルによるデータ・キャプチャの変更(レイクハウスでのデータ・ストリーミング入門)
  • Corning - Databricksワークフローによるデータエンジニアリング (レイクハウスにおけるデータエンジニアリング入門)
  • Discovery+ - レイクハウスの導入による視聴者体験の向上
  • Grammarly - Grammarlyのデータプラットフォームへのディープダイブ
  • Honeywell - Cisco Spaces Firehose APIをデータストリームとして使用し、リアルタイムの稼働率モデリングを実現
  • Lyft - マーケットプレイスにおけるリアルタイムML
  • T-Mobile - レイクハウスの価値 最新のデータ・プラットフォームのメリットを明確にする

今年のサミットに参加できなかった?

ご安心ください!データエンジニアリングとデータストリーミングの全セッションはこちらからご覧いただけます。Databricks Lakehouseプラットフォームに初めて触れる方には、この2つの入門セッションがお勧めです:

See you next year at Data + AI Summit 2024!

Databricks 無料トライアル

関連記事

Platform blog

Delta Live TablesとUnity Catalogを使用したガバメント・パイプラインの構築

翻訳: Masahiko Kitamura オリジナル記事: Build governed pipelines with Delta Live Tables and Unity Catalog Delta Live Tables(DLT)のUnity Catalogサポートのパブリックプレビューを発表できることを嬉しく思います。このプレビューにより、どのようなデータチームでも、Delta Live Tablesによって生成されたデータ資産に対して、きめ細かいデータガバナンスポリシーを定義し、実行することができます。私たちは、データエンジニアリングパイプラインにUnity Catalogのパワーをもたらします。パイプラインとDelta Live Tablesは、他のUnity...
Platform blog

Databricksのワークフローを利用したLakehouseのオーケストレーション

Original: Lakehouse Orchestration with Databricks Workflows 翻訳: junichi.maruyama 業界を問わず、組織はレイクハウス・アーキテクチャを採用し、すべてのデータ、アナリティクス、AIのワークロードに統一プラットフォームを使用しています。ワークロードを本番環境に移行する際、組織はワークロードのオーケストレーションの方法が、データとAIソリューションから引き出すことのできる価値にとって重要であることに気づいています。オーケストレーションが正しく行われれば、データチームの生産性を向上させ、イノベーションを加速させることができ、より良いインサイトと観測性を提供でき、最後にパイプラインの信頼性とリソース利用を改善することができる。 Databricks Lakehouse Platformの活用を選択したお客様にとって、オーケストレーションがもたらすこれらの潜在的なメリットはすべて手の届くところにありますが、Lakehouseとうまく統合されたオーケ
プラットフォームブログ一覧へ