テールゲートをするかしないか？：Databricks + AccuWeatherがMLを使ってフットボールファンの熱い疑問に答えた方法

クナール・マルワー、ティモシー・ロフタス、ミカイラ・ガーフィンケル、デビッド・クルウィンによる投稿

November 1, 2023 in データ戦略

Share this post

NFLの熱狂的ファンであれ、母校を応援するOBであれ、テイラー・スウィフトを一目見ようとするスーパーファンであれ、フットボール・シーズンはアメリカで1年で最もエキサイティングな時期のひとつである。

そして、その楽しみ方にも事欠かない。何百万人もの視聴者が自宅のソファや近所のバーでくつろぎながら観戦する一方で、多くの視聴者はお気に入りのチームの試合を見るために、時には氷点下の気温の中、スタジアムまで足を運ぶ。また、チームと一緒に新しい都市を訪れたいと思う人もいるだろう。しかし、ファンにとっては、1シーズン分の試合からどれを選ぶかを決めるのは大変なことなのだ。

お客様の「最も困難な問題」を解決するDatabricksの精神に則り、私たちはデータと機械学習の力を活用し、NFLや大学のフットボールファンがテールゲーティングで最も得をする方法を予測する手助けをしたいと考えました。

このブログポストでは、Databricks LakehousePlatform（Databricks AutoMLと Databricks Assistantを含む）とDatabricks MarketplaceパートナーであるAccuWeather（ペンシルバニア州ステージカレッジに本拠地を置く、ペンシルバニア州立ニッタンライオンズの本拠地）のデータを使って、どのように質問に答えたかを説明します：今シーズンの残りのテールゲートに最適な場所は？

分かったこと

2023年11月から12月にかけて、我々のモデルは、全117試合のうち、模範的なテールゲートのコンディションが予想されるNFLの23試合を特定した。これらの結果は、Databricksの新しいダッシュボードツール「Lakeview」を使って可視化することができる。

最も "テールゲート可能 "な試合が行われたスタジアムは、カリフォルニア州イングルウッドのSoFiスタジアム、ネバダ州ラスベガスのアレジアント・スタジアム、フロリダ州ジャクソンビルのTIAAバンク・フィールドだった。

スタジアムと同様、暖かい場所に位置するチームが最も理想的な天候で試合が行われると予想されているのは、さほど驚くことではない：アリゾナ・カーディナルス、ダラス・カウボーイズ、ジャクソンビル・ジャガーズ、ラスベガス・レイダースだ。

逆に、テールゲートが可能な試合が最も少ないチームのファンは、もしまだなら、重い冬のコートを今すぐ倉庫から出すべきだ：ピッツバーグ・スティーラーズ、テネシー・タイタンズ、グリーンベイ・パッカーズ、デンバー・ブロンコス、そしてシカゴ・ベアーズだ。

これまで見てきたように、熱心なファンの多くが、場合によっては氷点下の中、テールゲートのために各スタジアムに向かうのを止めることはないだろう。
しかも、それらのチームの多くがシーズン開幕を荒れ模様で迎えているにもかかわらず、である。

いくつかのサプライズがあった。ニューヨーク・ジャイアンツ／ジェッツとボルティモア・レイブンズの両チームは、必ずしも11月と12月の天候に恵まれることで知られる都市のチームではないが、「テールゲートが可能」な試合の多い上位10チームに入った。

一方、今後数週間の間に、テールゲートのオプションとして魅力的であることが証明されそうなカレッジフットボールの試合が18試合ある。テールゲート可能」な試合が多い上位10チームには、アラバマ、デューク、ケンタッキー、ルイビル、マイアミが含まれている。逆に、カンザス、オレゴン州立大、テネシー大、ワシントン大など、今すぐホットチョコレートを買いだめしておくべきチームは多い。

なぜこれが重要なのか

ミッションクリティカルなテールゲート情報を知る必要のある企業はほとんどないだろう。しかし、いつ雪かきを仕入れるべきか、いつ人々が縮毛防止ヘアケア製品を購入する可能性が最も高いかを知る必要があるとしたらどうだろう？このユースケースで示したように、AIとMLに関しては、最終的なアプリケーションは、その背後にあるデータとプロセスによってのみ優れている。

適切なデータを収集し、適切なモデルを構築し、それをトレーニングし、結果を検証しなければ、モデルが実際に意図したとおりに機能しているかどうかを確かめる方法はない。そのプロセスを単一の統一されたデータ・プラットフォーム上で標準化することで、企業はAIとMLの恩恵をより早く、より高い信頼性をもって享受し始めることができる。

以下に紹介するのは、テールゲート・インデックスを構築するために使用したステップ・バイ・ステップのプロセスである。しかし、これは他のユースケースでも簡単に再現できる。例えば、気象情報を地域別の販売データ（顧客の規模、場所、業種など）に置き換えてみましょう。- そして、ビジネス開発チームは、潜在的な新規顧客を評価する際に使用できるチャットボットを突然手に入れる。営業担当者は、最高のテールゲートを機械に問い合わせる代わりに、次のような質問をすることができる：この地域では、どの企業が私の製品を買ってくれそうですか？例えば、大手コーヒーチェーンは、予想よりも寒い天候予測に基づいて、パンプキンスパイスラテの発売を選択するかもしれない。

最も重要なことは、Databricksがビジネス関係者のためにデータの可能性を解き放つ手助けをすることです。 MLflowのようなツールを使えば、データサイエンスのバックグラウンドがない人でも、分類、回帰、予測モデルのようなシンプルなモデルを構築することが可能になった。このMLとAIの民主化は、多くの企業が目標としている効率化を推進する触媒となるだろう。

我々のアプローチ

Databricks Lakehouseはすでに、多数のデータとAIのユースケースを実行するための統合プラットフォームとして機能しているが、このプロジェクトがより簡単かつ迅速に行えるようになった、最近の機能と拡張を紹介する。

データの取得、データの説明、データの要約

すべてのAI/MLプロジェクトがそうであるように、望ましい結果を把握した後、私たちが最初に着手したのは、適切なデータを入手することだった。

DatabricksのパートナーであるAccuWeatherと協力して、デルタ・シェアリングを使い、6100万件以上に及ぶ4年分の気象情報に、Databricks Lakehouseから数分でアクセスすることができました。ライブデータのクロスプラットフォーム共有に加え、Delta Sharingは、データ、アナリティクス、AIのオープンマーケットプレイスであるDatabricks Marketplaceを通じて、企業が情報を迅速に発見、評価、アクセスすることを可能にする。

データを入手した後は、8月から12月までの期間に絞り込み、サッカーの試合がある日（木曜日、土曜日、日曜日、月曜日）のみを使用した。残るは1,700万ドルだ。

MLモデルを構築する場合、モデルを検証するために学習データの一部をセグメント化するのが一般的だ。通常、訓練データと検証データの割合はそれぞれ80～20％程度だ。この例では、1,400万レコードを使ってモデルを訓練し、300万レコードを使ってモデルを検証した。

これらのステップは、モデルが分析する情報の範囲を絞り込むのに役立つので重要である。機械学習では、不必要なノイズを可能な限り排除することが目標となる。私たちが達成したいと思っている結果に当てはまらない過去の情報でモデルをトレーニングするのは意味がなかった。そして最終的には、モデルがトレーニングされたデータがより適切であればあるほど、より優れたパフォーマンスを発揮することになる。

Tailgate Indexで示したように、データを決定する前に望ましい結果を決めておくことは、最も適切なトレーニングと検証情報をセグメント化するのに役立つ。

モデル開発

この情報があれば、テールゲートインデックスを作り始めることができる。

モデルを作る前に、理想的なテールゲートの日のモデルを定義しなければならなかった。私たちは "完璧な "日とは、天候が50～80°Fで、雲量が60％以下の日と分類した。それから始めたんだ。

モデルのいくつかの側面を手作業で書いた後、私たちは行き詰まり、いくつかのコード行を思い出せなくなった。 Stack Overflowを行ったり来たりしたり、大量のGoogleの検索結果をスキャンしたりする代わりに、Databricksアシスタントに質問するだけでいいのだ。 Databricksアシスタントがコードを生成し、私たちはそれをノートブックにコピーして、素早くモデルに追加しました。

私たちのモデルの初期の反復では、回収率（取り込んだデータをどれだけ正確に分類できたかを示す）はおよそ65％だった。これを改善するためには、ハイパーパラメーター・チューニングと呼ばれる機械学習技術を使う必要があった。

通常、データサイエンティストは、想起率を改善するために数時間、数日、数週間かけてモデルのパラメータを変更することができる。多くの計算とバックエンドのコーディングが必要だ。そこでAutoMLが大きな助けとなる。 AutoMLは、ハイパーパラメータのチューニングと並んで、予測や回帰などのさまざまなMLモデルを、コードを書くことなく構築するのに役立ちます。

例えば、Tailgate Indexでは、学習データをAutoMLに読み込ませるだけで、30分後には50種類の分類モデルが生成され、その中から選択することができました。

次のステップは、オートMLが提供するモデルのひとつをプロダクション・モデルとして採用することだった。このプロセスを簡素化するために、AutoMLはすべてのモデル出力とそれに対応するメトリクス（感度、特異度、AUCなど）を表形式で表現してくれます。これらのモデルを感度（リコール）に基づいて分類し、LightGBM分類器であるTailgate Predictorを選択した。最終モデルの回収率は95％であった。今、私たちはモデルの注意を過去のデータから今後の予測に向ける必要があった。

そのために、2023年11月1日から12月31日までのAccuWeatherの予測データを収集した。理想的なテールゲートの日を決定することが目的であったため、NFLまたはカレッジフットボールの試合が予定されている日のみを対象とした。 AccuWeatherには、NFLとカレッジフットボールのスタジアムがある郵便番号のリストもあったので、さらにデータを絞り込むこともできた。 (注：カレッジフットボールについては、10月上旬時点の上位25チームに関するデータのみを使用)

そのため、天気予報は変わる可能性があるが、現在の予測に基づき、我々のモデルはテールゲートに最適な今後の試合を以下のようにリストアップした。

次のステップ

旅はそこで終わらない。基礎となるモデルを正しく理解した後、Databricks Marketplaceに行けば、モデルをさらにカスタマイズしたり、異なるクエリに答えるのに役立つ追加のデータやAI資産を簡単に見つけることができる。

企業にとって、このような柔軟性は非常に重要だ。企業がスケーラブルで反復可能なAIやMLのプロセスを構築し、なおかつ個々の従業員が特定の問題に合わせてモデルをカスタマイズできる柔軟性を提供する方法である。

すでにDatabricksを使用している場合は、「機械学習」セクションに移動し、独自のテールゲーティング体験を構築してください（Databricksを試してみたい場合は、ここからサインアップしてください）。

AccuWeather + Databricksを使用して収益を改善する方法についてもっと知りたいですか？データ＋AIサミット2023のオンデマンドセッションをご覧ください！

Databricks 無料トライアル

使ってみる

Moneyball 2.0: Real-time Decision Making With MLB’s Statcast Data

October 28, 2021 Max Wittenberg による投稿 in エンジニアリングのブログ

The Oakland Athletics baseball team in 2002 used data analysis and quantitative modeling to identify undervalued players and create a competitive lineup on...

Scrappy Halloween Insights: How We Used Databricks and Chewy Data to Identify Trendy Pet Costumes

November 9, 2022 Jon Van Hofwegen、クナール・マルワー、Michelle Liu、ミカイラ・ガーフィンケルによる投稿 in 業界

This year, as part of its annual Halloween consumer survey and report, the NRF expected U.S. consumers to spend $10.6 billion on Halloween...

コンテキストを認識するAIアシスタント、Databricks Assistantの紹介

July 31, 2023 Patrick Wendell（パトリック・ウェンデル）、ウェストン・ハッチンス、Romain Rigaux、テッド・トムリンソン、Charles Gong による投稿 in プラットフォームブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、Databricks Notebooks、SQLエディタ、ファイルエディタでネイティブに利用可能な、コンテキストを意識したAIアシスタント、Databricks Assistantのパブリックプレビューを発表します。Databricks Assistantを使えば、会話形式のインターフェイスでデータを照会することができ、Databricks内での生産性が向上します。タスクを英語で説明すると、アシスタントが SQL クエリを生成し、複雑なコードを説明し、エラーを自動的に修正します。アシスタントは、Unity カタログのメタデータを活用して、テーブル、カラム、説明、および会社全体で人気のあるデータ資産を理解し、あなたにパーソナライズされた応答を提供します。データおよびAIプロジェクトの迅速な構築 SQLまたはPythonコードの生成 Databricks Assistant は Databricks の各編集画面にネイティブに

データ戦略一覧へ