Spark Streaming - アドバンスド
動画の内容
Databricks Lakehouse Platformは、データストリーミングを劇的に簡素化し、リアルタイムの分析、機械学習、そしてアプリケーションを一つのプラットフォームで提供します。このデモでは、Databricks Lakehouseがクリックストリームデータ(通常はKafkaなどのメッセージキューから)を取り込み、分析するためのストリーミング機能を提供する方法を紹介します。
セッション化とは、イベントの流れから時 間制限のあるユーザーセッションを見つけ出し、同じ時間帯に発生するすべてのイベント(例えば、クリック数、最も閲覧されたページなど)をグループ化するプロセスです。
セッションの理解は、多くのユースケースにとって重要です:
- あなたのオンラインショップでカートの放棄を検出し、自動的にマーケティングアクションをトリガーして販売を増加させるためのフォローアップを行います
- あなたの所属に対してより良い帰属モデルを構築しましょう。これは各セッション中のユーザーの行動に基づいています。
- あなたのウェブサイトでのユーザージャーニーを理解し、ユーザーの維持を増やすためにより良い体験を提供してください。
このデモでは次のことを行います。
- Kafkaからデータを取り込む
- データをデルタテーブルとして保存し、スケールに応じた品質とパフォーマンスを確保してください。
- アクティビティに基づいてユーザーセッションを計算します
デモをインストールするには、無料のDatabricksワークスペースを取得し、Pythonノートブックで以下の2つのコマンドを実行します
Dbdemosは、Databricksのデモをワークスペースに完全にインストールするPythonライブラリです。Dbemosはノートブック、Delta Live Tablesパイプライン、クラスター、Databricks SQLダッシュボード、ウ ェアハウスモデルをロードして開始します... dbdemosの使い方をご覧ください
DbdemosはGitHubプロジェクトとして配布されています。
詳細については、GitHubのREADME.mdファイルをご覧いただき、ドキュメンテーションに従ってください。
Dbdemosはそのまま提供されています。詳細については、ライセンスと通知をご覧ください。
Databricksは、dbdemosおよび関連資産に対して公式のサポートを提供していません。
問題が発生した場合は、チケットを開いてデモチームに連絡してください。最善を尽くして対応します。