リアルタイムストリーミング ETL を実現するツール
Data+AI Summit、Spark+AI Summit のアーカイブを視聴できます。 こちら のサイトをご覧ください。 Databricks の Notebook を試してみる 現在、多くの企業がビッグデータの活用を目指してデータの継続的収集に取り組んでいます。収集した膨大なデータは、その中から有用な情報をタイムリーに抽出してこそ価値を生み出します。そこで、データ収集パイプラインから行動につながる気づきをリアルタイムに引き出すための 継続的アプリケーション の必要性が高まっています。 しかし、実運用に耐える継続的アプリケーションを構築するのは容易なことではなく、開発者はさまざまな課題を解決しなければなりません。その代表例を挙げてみます。 エンドツーエンドの信頼性と正確性の確保 :長期間の継続実行が期待されるデータ処理システムは、各出力とバッチ処理結果との整合性を維持することで、優れた耐障害性が確保されなければなりません。また、異常な動作(アップストリームコンポーネントの障害、トラフィックの急上昇など)を監視