Databricks のデータインテリジェンスプラットフォームは、データストリーミングを大幅に簡素化し、単一のプラットフォームでのリアルタイム分析、機械学習、アプリケーションの実行を可能にします。
任意の言語とツールでストリーミングデータのワークロードを構築し、リアルタイムデータのワークロードの構築と運用管理を自動化できます。また、ストリーミングとバッチデータの両方を処理できる単一プラットフォームにより、データのサイロ化が解消されます。
自動化されたツールで運用を簡素化
リアルタイムパイプラインやアプリケーションの本番環境への導入と管理を容易にします。自動化されたツールにより、タスクのオーケストレーション、フォールトトレランス/リカバリ、自動チェックポイント、パフォーマンスの最適化、オートスケールを簡素化します。
クラウド上のリアルタイムデータに対する統合ガバナンス
Unity Catalog は、あらゆるストリーミングデータとバッチデータに対して一貫したガバナンスモデルを提供し、リアルタイムデータの発見、アクセス、 データ共有 の方法を簡素化します。
データストリーミングの機能
ストリーミングデータの取り込みと変換
リアルタイム分析、ML、アプリケーション
自動化されたオペレーションツール
次世代ストリーム処理エンジン
統合ガバナンスとストレージ
ストリーミングデータの取り込みと変換
Delta Live Tables により、ストリーミングデータパイプラインのデータ取り込みと ETL が簡素化されます。SQL や Python など、使い慣れている言語やツールを使って、 データエンジニアリングを行うためのシンプルな宣言型アプローチを活用できます。自動更新の設定を適用してバッチおよびストリーミングのパイプラインを 1 か所で構築・実行することで、所要時間を短縮し、運用負荷を軽減します。Databricks データインテリジェンスプラットフォームでストリーミングデータパイプラインを構築すれば、データの送信先を問わず、ローデータからクリーンデータへの変換にかかる時間を短縮できます。
「データブリックスのプラットフォームを複数の事業部がセルフサービスで利用しています。これは以前には考えられないことでした。データブリックスの導入効果は非常に大きいと感じています。」コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー Lara Minor 氏
リアルタイム分析、ML、アプリケーション
ストリーミングデータで、アナリティクスと AI の精度とアクショナビリティを迅速に向上させることができます。ストリーミングデータパイプラインの下流にあるリアルタイムインサイトは、お客様のビジネスの利益となります。SQL分析 とBIレポート,MLモデルのトレーニング またはリアルタイムの業務アプリケーションの構築のいずれであっても、ビジネスで最も新鮮なデータを提供し、リアルタイムの洞察、より正確な予測、迅速な意思決定を引き出し、競争に打ち勝ちましょう。
「常に最新で正確なデータをビジネスパートナーに提供しなければ、インサイトへの信頼を失うことになります。Databricks の導入により、これまで不可能だったことが可能になりました。」ラ・リーガ・テック アーキテクチャ責任者 Guillermo Roldán 氏
自動化されたオペレーションツール
ストリーミングデータパイプラインを構築し、デプロイする際に、Databricks は本番環境に必要な複雑な運用タスクの多くを自動化します。これには、基盤となるインフラの自動的な拡張、パイプラインの依存関係のオーケストレーション、エラー処理とリカバリ、性能の最適化などが含まれます。Enhanced Autoscaling は、各ワークロードにコンピュートリソースを自動的に割り当てることで、クラスタ利用を最適化します。これらの機能に加えて、自動データ品質テストと例外管理により、運用ツールの構築と保守に費やす時間を減らし、データから価値を得ることに集中できるようにします。
次世代ストリーム処理エンジン
Spark 構造化ストリーミング は、Databricks データインテリジェンスプラットフォーム上のデータストリーミングを解放するコアテクノロジーで、バッチ処理とストリーム処理のための統一された API を提供します。Databricks データインテリジェンスプラットフォームは、99.95% の稼働率を誇るマネージドサービスで、Apache Spark ワークロードを実行するのに最適な基盤です。Apache Spark API と互換性のある次世代エンジン Photon により、Spark ワークロードはさらに加速され、数千ノードまで自動的にスケールアップしながら、 記録的なパフォーマンスとコストを実現します。
統合ガバナンスとストレージ
Databricks でのデータストリーミングは、 Databricks データインテリジェンスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake を利用することを意味します。Delta Lake は、ストリーミングデータとバッチデータの両方に対応するようゼロから設計された唯一のオープンソースストレージフレームワークで、お客様の未加工データを最適化できます。Unity Catalog は、あらゆるデータと AI 資産に対して、きめ細かく統合されたガバナンスを提供し、クラウド間でデータを発見、アクセス、共有するための一貫したモデルを提供します。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコルである Delta Sharing をネイティブにサポートしています。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。
統合
データチームに最大限の柔軟性を提供 — Partner Connectとテクノロジーパートナーのエコシステムを活用して、一般的なデータストリーミングツールとシームレスに統合できます。