テック・マーケティングに革命を

PyMCとDatabricksの相乗効果

公開日: February 26, 2024

によってカルロス・トルヒーヨ、コーリー・アブシャー、ナイアル・オルトン、Dan Morris、レイラ・ヤンによる投稿

イントロダクション

1月4日、GoogleがサードパーティCookieの段階的な削除を開始し、デジタルマーケティングの新時代が始まりました。当初、この開発はChromeユーザーの1％にしか影響を与えていませんでしたが、これは来るべき事態の明確なシグナルといえます。サードパーティCookieの終焉は、デジタルマーケティングの新時代の到来を告げるものです。デジタルエコシステムが進化し続ける中、マーケティング担当者はエンゲージメントと成長へのアプローチを再考する必要があります。戦略を見直し、パーソナライズされた効果的なマーケティングを提供しながらも、ユーザーのプライバシーを優先する新しい方法論を取り入れる瞬間です。

それと同時に、マーケティング分析において「私たちは何を求めているのか？」という疑問も生じます。クッキーは結局のところ、目的のための手段に過ぎなかったのです。これらのおかげで、私たちが信じていたマーケティングの効果を測定することができました。多くのマーケティング担当者と同様に、私たちは「広告予算のどの部分が本当に効果を上げているのか？」という長年の疑問を解明することを目指します。

クッキーの謎を解く

マーケティングのパフォーマンスを理解しようとしているのであれば、実際にどのようなクッキーが配信されていたかを疑問視するのは当然です。クッキーはアトリビューションとインパクトを追跡することを目的としていましたが、そのストーリーは目に見える影響と隠れた影響のパズルのようでした。 100件のコンバージョンを誘導するように見える看板を考えてみましょう。アトリビューションは、このような見かけ上の成功を単純にカウントするものです。しかし、インクリメンタリティでは、「看板がなかったとしても、これらのコンバージョンのうち何件が発生していただろうか」とより深いところまで調査します。各マーケティング・チャネルが持つ真の付加価値を発掘しようとするものです。

あなたが実施するマーケティング・キャンペーンについて、手の込んだイベントを開催するようなイメージで考えてみてください。あなたは豪華な招待状（あなたのマーケティング努力）を潜在的なゲスト（リード）に送ります。アトリビューションとは、入場者を集計するドアマンのようなものです。しかし、インクリメンタリティとは、あなたの招待の魅力に誘われたゲストと、それとは関係なしに出席したであろうゲストを区別する、目の肥えたホストのことです。頭数を数えるだけでなく、その背後にある動機を認識します。

では、実際にインクリメンタル性をどのように評価すればいいのでしょうか？答えは簡単です！統計学は、外的変数をコントロールする方法でデータを収集、分析、解釈するための枠組みを提供し、観察された効果が偶然や外的影響ではなく、問題のマーケティング行為に起因することを保証します。そのため、近年、グーグルやフェイスブックは、実験的な試みをもたらすためにチップを動かしています。例えば、リフトオフテストツールやアップリフトテストツールは、A/Bテストの実験です。

信頼できる統計の復活

この同じ環境の中で、回帰モデルは、マーケティングの特殊な効果を考慮するためにさまざまな方法で調整され、ルネッサンスを迎えました。しかし、多くの場合、これらのモデルを実際に適用する際には、キャリーオーバー効果や飽和効果など、非常に現実的な非線形効果が存在するため、課題が生じます。

幸いなことに、ダイナミックなマーケティング分析の世界では、大きな進歩が絶えず行われています。大手企業は先進的な独自モデルの開発に率先して取り組んでいます。こうした動きと並行して、オープンソースコミュニティも同様に活発化しており、技術創造に対するより柔軟で包括的なアプローチを示しています。この傾向を証明するのが、PyMCのエコシステムの拡大です。データ分析とマーケティングにおける多様なニーズを認識し、PyMC Labsは PyMC-Marketingを導入することで、ソリューションのポートフォリオを充実させ、技術的な状況におけるオープンソース貢献の重要性と影響力を強化しています。

PyMC-Marketingは、回帰モデルを使用して、主要なビジネスKPIに対するメディアチャネルの貢献度を解釈します。このモデルは、過去の広告からの長引く効果（アドストック効果またはキャリーオーバー効果）と高い支出レベルでの減少するリターン（飽和効果）を考慮した変換関数を通じて、広告への人間の反応をキャプチャします。そうすることで、PyMC-Marketingは、さまざまなメディアチャンネルの影響力をより正確かつ包括的に理解することができます。

メディア・ミックス・モデリング（MMM）とは何か？

メディア・ミックス・モデリング、略してMMMは、企業にとってコンパスのようなもので、複数のチャネルにわたるマーケティング投資の影響力を理解するのに役立ちます。これらのメディアチャネルからの豊富なデータを選別し、売上やコンバージョンといった特定の目標を達成するために各チャネルが果たす役割をピンポイントで特定します。この知識により、企業はマーケティング戦略を合理化し、効率的なリソース配分によってROIを最適化することができます。

統計学の世界では、MMMには大きく分けて、頻度論的手法とベイズ的手法の2種類があります。一方では、MMMに対する頻度論的アプローチは、主に重回帰といった古典的な統計手法に依存しています。これは、データの結果の頻度を観察することによって、マーケティング活動と売上の関係を確立しようとするものです。一方、ベイズアプローチでは、観測データとともに事前知識や信念を組み込んでモデルパラメータを推定します。不確実性を把握するために、点推定ではなく確率分布を使用します。

それぞれの利点は何か？

確率的回帰（ベイズ回帰）

透明性：ベイズモデルは、その構造において明確な構築を必要とし、変数が互いにどのように関係し、どのような形状を持ち、どのような値を採用できるかは、通常モデル作成プロセスで定義されます。これにより、仮定を明確にし、データ生成プロセスを明示することができ、隠れた仮定を避けることができます。
事前知識：確率的回帰では、事前の知識や信念を統合することができます。これは、既存のドメインの専門知識や過去のデータがある場合に特に役立ちます。ベイズ法は、データが限られている場合に推定値を安定させることができるため、小さなデータセットの分析に適しています。
解釈：事後分布によるモデルパラメータの完全な確率論的解釈を提供し、不確実性のニュアンスに富んだ理解を提供します。ベイズ信頼区間は、不確実性をより明確に定量化し、パラメータに関する直接的な確率を提供します。さらに、モデルがデータ生成プロセスの仮説に沿っているため、因果分析につなげやすくなります。
過学習に対する堅牢性：事前分布の正則化効果により、一般的に過学習に対してより堅牢です。

通常の回帰（すなわち、頻度論的回帰）

単純さ：一般に、通常の回帰モデルは、展開と実装がより単純で、より広い範囲のユーザーがアクセスできます。
効率性：これらのモデルは、特に大規模なデータセットに対して計算効率が高く、標準的な統計ソフトウェアを使用して簡単に適用できます。
解釈可能性：通常の回帰からの結果は、応答変数での予測変数の平均効果を示す係数で、解釈するのが簡単です。

マーケティングの分野は、慎重に考慮しなければならない不確実性が大きいという特徴があります。データ生成プロセスに影響を与える現実の変数をすべて把握することはできないため、現実を限定的に捉えたモデルの結果を解釈する際には慎重になる必要があります。さまざまなシナリオがあり得ますが、いくつかのシナリオは他のシナリオよりも可能性が高いことを認識することが重要です。これが事後分布の最終的な姿です。さらに、モデルの前提条件を明確に理解していなければ、現実を正しく理解できないかもしれません。従って、この点で透明性を確保することは極めて重要です。

Databricksを使ったPyMCマーケティングの強化

モデリングへのアプローチと、モデル構築に役立つフレームワークを持つことは素晴らしいことです。 BoltやShellのようなテクノロジー企業では、ユーザーはラップトップでPyMC-Marketingを使い始めることができますが、これらのモデルは、組織全体の技術的な利害関係者や非技術的な利害関係者が迅速に利用できるようにする必要があります。例えば、モデルに供給するために必要なすべてのソースデータをどのように取得し、処理するのでしょうか？実行したモデル、使用したパラメータとコードのバージョン、各バージョンで得られた結果をどのように記録していますか？より大きなデータ・サイズや高度なスライシング・アプローチに対応するために、どのようにスケーリングするのでしょうか？このすべてをどのように同期させているのですか？どのようにアクセスを管理し、セキュアに保ちながら、それを必要とするチームメンバーが共有し、発見できるようにするのでしょうか。 Databricksがお客様からよくお聞きするこのような問題点を、Databricksがどのように解決しているのかをご紹介します。

まず、データについて話しましょう。このようなメディアミックスモデルを動かすためのデータはどこから来るのでしょうか？ほとんどの企業は、キャンペーンデータ、CRMデータ、販売データ、その他無数のソースなど、さまざまな上流ソースから膨大な量のデータを取り込んでいます。また、すべてのデータを処理してクリーンな状態にし、モデリングの準備をする必要があります。 Databricks Lakehouseは、これらの上流ソースとETLを管理するための理想的なプラットフォームであり、信頼性と拡張性に優れた方法で、データを可能な限り新鮮に保つためのすべての作業を効率的に自動化することができます。 Databricksは、様々なパートナーのインジェストツールと豊富なコネクターにより、事実上あらゆるソースからインジェストし、関連するすべてのETLとデータウェアハウジングパターンをコスト効率よく処理することができます。モデル用のデータを作成し、モデルから出力されたデータを処理してダッシュボードやアナリストのクエリに利用することができます。 Databricks は、全てのパイプラインをストリーミングで実装し、Delta Live Tablesを用いたモニタリング機能を全体にわたって提供します。

次に、モデルの追跡とライフサイクル管理について説明しましょう。データサイエンスや機械学習に携わる人にとって、Databricksプラットフォームのもう一つの重要な機能がMLflowです。すべてのDatabricks環境には、ビルトインかつマネージドのMLflowがあり、マーケティングデータチームが実験を記録し、どのパラメータがどのメトリクスを生み出したかを追跡しやすくなっています。これは、PyMC-Marketingによるベイズ推論の実行成果物など、他のアーティファクトと並んで行われます（例えば、事後分布のトレース、事後予測チェック、それらを理解するのに役立つさまざまなプロットなど）。また、各実験の実行に使用されたコードのバージョンを追跡し、Databricks Reposを介してバージョン管理ソリューションと統合します。

データサイズやモデリングアプローチに合わせて拡張できるよう、Databricksはさまざまなコンピュートオプションを提供しています。そのため、クラスタのサイズを手元のワークロードのサイズに合わせて拡張することができます。 Boltのような大規模なテクノロジー企業は、さまざまな市場向けにMMMモデルを実行する必要があります。しかし、各モデルの構造は同じです。 Python UDF を使用すると、データの各スライスで同じ構造を共有するモデルをスケールアウトし、結果をすべて MLflow にログバックしてさらに分析することができます。 GPU搭載インスタンスを選択して、GPU搭載サンプラーを使用できるようにすることもできます。

これらのパイプラインをすべて同期させるために、デプロイするコードとすべての設定パラメータを準備したら、Databricks Workflowsを使って実行をオーケストレーションします。 Databricks Workflowsを使用すると、データパイプライン全体とモデルフィッティングジョブ、および下流のレポーティングタスクが、希望する頻度に従って連携して動作し、データを必要に応じて常に新鮮な状態に保つことができます。マルチタスクのジョブを簡単に定義し、それらのジョブの実行を時系列で監視することができます。

最後に、Databricksは、モデルとデータの両方を安全に管理しながら、必要なチームメンバーがアクセスできるように、Unity Catalogを提供しています。モデルが下流プロセスで使用できるようになると、Unity Catalogに組み込まれたモデルレジストリに記録されます。 Unity Catalogは、すべてのデータとAI資産に統一されたガバナンスとセキュリティを提供し、適切なデータを適切なチームと安全に共有できるため、メディアミックスモデルを安全に活用できます。また、インジェストから最終的な出力テーブルまで、作成されたメディアミックスモデルを含めて、リネージを追跡することもできます。

まとめ

サードパーティCookieの終了は、単なる技術的な変化ではなく、戦略的な転換点の好機です。マーケティング担当者は今こそ反省し、変化を受け入れ、デジタルマーケティングの新時代に備えなければなりません。 Py MC LabsがサポートするPyMC-Marketingは、高度な数学モデルを適用して、データ駆動型のマーケティング意思決定を測定し、最適化するための最新のフレームワークを提供します。 Databricksは、関連するデータおよびモデリングパイプラインの構築とデプロイを支援し、あらゆる規模の組織に大規模に適用することができます。 Databricks上のPyMC-MarketingでMMMモデルを適用する方法の詳細については、ソリューションアクセラレータをご覧ください。

今すぐPyMC-Marketingを使用して、更新されたソリューションアクセラレータをチェックしてください！

次は何ですか？

How automated workflows are revolutionizing the manufacturing industry

November 27, 2024/1分未満

製造業を変革する自動化されたワークフローの革命とは？

Elevating Global Health with Databricks and The Virtue Foundation

December 19, 2024/1分未満