連続実行アプリケーション
Databricks 無料トライアル
連続実行アプリケーションとは、データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は、このアプリケーションを活用することで、単一のプログラミングインターフェイスを使用して、クエリの提供やバッチジョブとの対話など、現在別々のシステムで処理されている連続実行アプリケーションの側面をサ ポートすることができます。連続実行アプリケーションが処理できるユースケースは次のとおりです。
- リアルタイムで提供されるデータの更新:開発者は、更新と提供(SparkのJDBCサーバ経由など)のどちらも処理するSparkの単一アプリケーションへの書き込み、またはMySQL、Redis、Apache Cassandraのようなサーバシステムでトランザクションを自動更新するAPIの使用を選択できます。
- 抽出、変換、ロード(ETL):開発者は、バッチジョブのように必要な変換をリストアップするだけです。ストリーミングシステムが、ストレージシステムの調整を行うため、正確に一度のみの処理を実行します。
- 既存のバッチジョブのリアルタイムバージョンの作成:ストリーミングシステムは、同一データのバッチジョブと常に一貫性のある結果を保証します。
- オンライン機械学習:機械学習ライブラリは、同じAPIの背後で、リアルタイムトレーニング、定期的なバッチトレーニング、予測機能を組み合わせるように設計されています。