This blog is authored by Sai Ravuru Senior Manager of Data Science & Analytics at JetBlue
翻訳:Junichi Maruyama. - Original Blog Link
航空業界におけるデータの役割には歴史があります 。航空会社はメインフレームコンピュータの最初のユーザーの1つであり、今日、データの使用はビジネスのあらゆる部分をサポートするために発展してきました。データの質と量のおかげもあって、航空会社は世界で最も安全な交通手段のひとつとなっています。
今日の航空会社は、時系列的なダンスの中で互いに連動して発生するいくつかの変数のバランスをとらなければなりません。
- 顧客はフライトに接続する必要がある
- バッグをフライトに積み込み、顧客と同じ目的地まで追跡する必要がある
- 乗務員(パイロット、客室乗務員、通勤乗務員など)は、FAA(連邦航空局)の法的な勤務および休息要件を満たしながら、フライトの位置につく必要がある
- 航空機は常にメンテナンスの必要性を監視し、必要な場所で部品の在庫を確保する必要がある
- 天候は何百もの重要な場所やルートでダイナミックに変化しており、予測は安全で効率的なフライトオペレーションに不可欠です。
- 政府機関は定期的に空域の制約を更新しています
- 空港当局は空港インフラを定期的に更新しています
- 政府機関は空港のスロット制限を定期的に更新し、地政学的緊張に対応しています
- マクロ経済の力は、ジェットA航空機燃料および持続可能な航空燃料(SAF)の価格に絶えず影響を与えます
- さまざまな理由による機内の状況は、航空会社のシステムの積極的な調整を促します
データ、特に分析、AI、MLの役割は、航空会社が最適なビジネス目標のために効率的な運営を維持しながら、顧客にシームレスなエクスペリエンスを提供するための鍵となります。
航空会社は、顧客が交通インフラの重要な構成要素であるこの航空会社に依存しているため、起こっている変化の頻度、量、多様性から、今日、世界で最もデータ駆動型の産業です
例えば、ニューヨークからロンドンへの1便のフライトでは、顧客、フライトクルー、航空機センサー、ライブ気象、ライブ航空管制(ATC)データを含む要素に基づいて、何百もの決定を下さなければなりません。猛烈な冬の嵐のような大規模な混乱は、米国全土の何千ものフライトに影響を与える可能性があります。したがって、航空会社にとって、リアルタイムのデータとAI&MLに依存して、プロアクティブなリアルタイムの意思決定を行うことは不可欠です。
航空機は1日の間にテラバイトのIoTセンサーデータを生成し、予約やセルフサービスチャネルでの顧客とのやりとり、動的な気象条件や航空交通の制約に起因する絶え間ない運用上の変更は、ジェットブルーのような航空会社におけるデータの複雑さ、量、多様性、速度を浮き彫りにする項目のほんの一部に過ぎません。
6つの重点都市(ボストン、フォートローダーデール、ロサンゼルス、ニューヨーク、オーランド、サンファン)と、世界で最も交通量の多い空域であるニューヨーク市にフライトを集中させることで、2023年のジェットブルーはある:
ジェットブルーにおけるデータとAIの現状
ジェットブルーではデータが戦略的に重要であるため、データチームはデータ統合、データエンジニアリング、商用データサイエンス、運用データサイエンス、AI & MLエンジニアリング、およびCTO直属のビジネスインテリジェンスチームで構成されています。
ジェットブルーの現在の技術スタックは、ほとんどがアジュール中心で、マルチクラウドデータウェアハウスとレイクハウスがさまざまな目的で同時に稼働している。Databricks Lakehouse では、内部データと外部データの両方が、バッチ、ニアリアルタイム、リアルタイムのフィードの形で継続的にエンリッチされています。
デルタライブテーブルを使用してデータを抽出、ロード、変換することで、データエンジニアとデータサイエンティストは、下流のアプリケーション、AI および ML パイプライン、BI ダッシュボード、アナリストのニーズにデータを供給しながら、幅広いレイテンシ SLA 要件を満たすことができます。
JetBlueは、AutoML、AutoDeploy、およびオンラインフィーチャーストア機能を備えた内部で構築されたBlueMLライブラリ、ならびにAIおよびMLモデルのトレーニングと推論のためのMLflow、モデルレジストリAPI、およびカスタム依存関係を使用します
インサイトは、TableauダッシュボードをDatabricks SQL serverless compute、高速なセマンティックレイヤー、および/またはデプロイされたMLサービングAPIに接続するREST APIを使用して消費されます。
新しいML製品のデプロイメントには、堅牢な変更管理プロセスが伴うことが多く、特に、データやそれぞれの意思決定の機密性が高いため、連邦航空規則やその他の法律で密接に管理されているビジネスラインではそうです。伝統的に、そのような変更管理は、一連のワークショップ、トレーニング、製品フィードバック、および役割固有のKPIやダッシュボードのような、ユーザーが製品と対話するためのより専門的な方法を伴う。
ジェネレーティブAIの最近の進歩を考慮すると、従来の変更管理とML製品管理は破壊されている。ユーザーは現在、洗練された大規模言語モデル(LLM)技術を使用して、使い慣れた自然言語を使用したヘルプなど、役割固有のKPIや情報にアクセスできる。これは、ユーザー間で製品のスケーリングを成功させるために必要なトレーニング、製品フィードバックのターンアラウンドタイムを大幅に削 減し、最も重要なことは、関連する洞察の要約へのアクセスを簡素化することである。
ジェネレーティブAIとMLのニーズに対応するため、ジェットブルーのAIとMLエンジニアリングチームは、企業の課題への取り組みに焦点を当てました。
Line of businesses |
戦略商品 |
戦略的成果 |
Commercial Data Science |
|
|
Operations Data Science |
|
|
AI & ML engineering |
|
|
Business Intelligence |
|
|
このアーキテクチャーを利用して、ジェットブルーは4つのビジネスラインにまたがる幅広いユースケースでAIとMLの導入を加速させ、それぞれにAIとMLチームを配置した。以下は、各ビジネスラインの基本機能である:
- コマーシャル・データ・サイエンス(CDS) - 収益拡大
- オペレーション・データ・サイエンス(ODS) - コスト削減
- AI&MLエンジニアリング - 市場投入までの製品展開の最適化
- ビジネス・インテリジェンス - レポーティング・エンタープライズのスケ ーリングとサポート
各ビジネスラインは、効果的な戦略的成果につながるKPIを設定するために、ジェットブルーのリーダーシップによって定期的に優先順位付けされる複数の戦略的製品をサポートしています。
マルチクラウドデータウェアハウスアーキテクチャから移行する理由
データとAIテクノロジーは、プロアクティブなリアルタイムの意思決定を行う上で非常に重要ですが、レガシーなデータアーキテクチャプラットフォームを活用することは、ビジネスの成果に影響を与えます。
ジェットブルーのデータは主にマルチクラウド・データウェアハウスを通じて提供されており、その結果、複雑な設計、遅延の変更、コストの拡張性に対する柔軟性に欠けている。
高いレイテンシー - データアーキテクチャのレイテンシーが10分かかると、年間数百万ドルのコストが発生する。 |
|
複雑なアーキテクチャ - 複数のプラットフォームや製品にまたがる複数段階のデータ移動は、複雑でコストがかかるため、リアルタイム・ストリーミングのユースケースでは非効率的である。 |
|
プラットフォームのTCOが高い - データ・プラットフォームを管理するために多数のベンダーのデータ・プラットフォームとリソースを持つことは、運用コストが高くなる。 |
|
スケールアップ - 現在のデータアーキテクチャは、多数のフライトから生成されるエクサバイト(大量のデータ)を処理する際に、スケールアップの問題を抱えている。 |
オンラインフィーチャーストアのハイドレーションの不足により、従来のアーキテクチャではレイテンシーが高く、データサイエンティストがスケーラブルなMLトレーニングおよび推論パイプラインを構築することができませんでした。レイクハウスのデータサイエンティストとAI&MLエンジニアが、MLモデルをメダリオンアーキテクチャに近づける自由を与えられたとき、市場投入戦略の効率性が開放されました。
動的スキーマ管理やステートフル/ステートレス変換などの複雑なアーキテクチャは、従来のマルチクラウド・データ ウェアハウス・アーキテクチャでは実装が困難でした。データサイエンティストもデータエンジニアも、スケーラブルなDelta Live Tablesを使用することで、参入障壁なくそのような変更を実行できるようになりました。SQL、Python、PySpark間を移動できるオプションは、JetBlue Dataチームの生産性を大幅に向上させました。
パイプラインの迅速なスケールアップができないため、マルチクラウドデータウェアハウスにおけるオープンソースのスケーラブルな設計の欠如は、パイプラインが失敗したときの複雑な根本原因分析(RCA)、非効率なテスト/トラブルシューティング、そして最終的には高いTCOをもたらしました。データチームは移行期間中、MCDWとDatabricksのコンピュート費用を綿密に追跡しました。リアルタイムで大容量のデータフィードがより多く消費されるようになると、ETL/ELT費用は、レガシーMulti Cloud Data WarehouseのETL/ELT費用と比較して、比例して直線的に増加しました。
データガバナンスは、どのような組織においても、ジェネレーティブAIと機械学習を導入する上で最大の障害となる。重要なデータや洞察への役割ベースのアクセスは、航空業界のような規制の厳しいビジネスでは厳しく監視されているため、これらの部門では効果的なデータガバナンス手順を誇っている。OpenAIのchatGPTのように、1000億以上のパラメータを持つ高度なシステムでのみ可能な、キュレートされたエンベッディングの必要性は、組織のデータガバナンスを複雑にしている。エンベッディングにはOpenAI、高速エンジニアリングにはDatabricksのDolly 2.0、効果的なGenerative AIガバナンスにはJetBlueのオフライン/オンラインドキュメントリポジトリの組み合わせが必要である。
以前のマルチクラウド・データウェアハウス・アーキテクチャ
Databricks Lakehouseアーキテクチャのインパクト
Databricks Lakehouse Platformがすべてのストリーミングユースケースの中心的ハブとして機能することで、JetBlueは数千もの属性をリアルタイムで処理し、複数のMLおよびアナリティクス製品/洞察を効率的に提供しています。これらの属性には、フライト、顧客、乗務員、航空交通、メンテナンスデータなどが含まれます。
LakehouseはDelta Live Tablesを通じてリアルタイムデータを提供し、過去のトレーニングやリアルタイムの推論MLパイプラインの開発を可能にします。これらのパイプラインは、ジェットブルーのシステムネットワークのスナップショットを継続的に更新するMLサービングAPIとして展開されます。急速に変化する天候、異常を伴う航空機のメンテナンス・イベント、乗務員の法定勤務時間に近づいたこと、ATCによる発着制限など、制御可能な変数と制御不可能な変数の両方から生じる運航への影響は、ネットワークを通じて伝達されます。これにより、予測されたアラートに基づく先制的な調整が可能になります。
Current Lakehouse Architecture
気象、航空機センサー、FAAデータフィード、ジェットブルーのオペレーションなどのリアルタイムのストリームを使用し、世界初のAIとMLのオペレーティングシステムが、効率的で安全なオペレーションを実現するためにBlueSkyとして知られるデジタルツインを編成する。ジェットブルーは、ダイナミックプライシング、カスタマー・レコメンデーション・エンジン、サプライチェーン最適化、カスタマー・センチメントNLPなど、さまざまな分野で10以上のML製品(各製品に複数のモデル)を生産している。
BlueSkyオペレーション・デジタルツインは、データチームが現在ジェットブルーに実装している最も複雑な製品の一つであり、ジェットブルーの航空オペレーション予測およびシミュレーション機能のバックボーンを形成している。
現在段階的に導入されているBlueSkyは、プロアクティブで最適な意思決定を通じてジェットブルーの業務効率を引き 出し、航空会社の顧客満足度、乗務員満足度、燃料効率、コスト削減を高めている。
さらに、チームはMicrosoft Azure OpenAI APIとDatabricks Dollyと協力し、最小限の変更管理と効率的なML製品管理でBlueSkyと同様の製品の成功的な成長を促進するために、Generative AIガバナンスを満たす堅牢なソリューションを作成しました。
Microsoft Azure OpenAI APIサービスは、ベクターデータベースのドキュメントストアに保存するためのサンドボックス化されたエンベッディングのダウンロード機能を提供します。DatabricksのDolly 2.0は、ベクターデータベースのドキュメントストア内のドキュメントへのUnity Catalogロールベースのアクセスを可能にすることで、高速エンジニアリングのためのメカニズムを提供します。このフレームワークを使用することで、Azure ADのSSOプロトコルとDatabricks Unity Catalogのアクセス制御リスト(ACL)の背後に隠れている同じチャットボットに、JetBlueのどのユーザーもアクセスすることができます。BlueSkyリアルタイムデジタルツインを含むすべての製品には、組み込みLLMが同梱されています。
Lakehouseのデータを使用してDatabricks上でAIとMLのエンタープライズ製品を展開することで、JetBlueはこれまで2年以内に比較的高い投資利益率(ROI)を達成しています。さらに、Databricksによって、データサイエンスとアナリティクスのチームは、Lakehouse, MLflow や Databricks SQL.を使用して、データパイプライン、ジョブ、MLモデルを迅速にプロトタイプ化し、反復し、立ち上げることができます。
JetBlueの専門チームは、Databricksが提供する最新の最先端機能の実装に努めながら、将来に期待を寄せています。これらの進歩を活用することで、お客様の経験を新たな高みに引き上げ、提供する価値全体を継続的に向上させることを目指しています。当社の重要な目標のひとつは、総所有コスト(TCO)を削減し、お客様が投資から最適な利益を得られるようにすることです。
2023 Data + AI Summitにご参加ください。基調講演ではレイクハウスのパワーについてお話しし、私たちの魅力的なリアルタイムAI&MLデジタルツイン・ジャーニーを深く掘り下げ、大規模言語モデルの複雑性をどのようにナビゲートしたかについて洞察します。