Revenir au contenu principal

Accélérer l'innovation chez JetBlue grâce à Databricks

jetblue x databricks

Publié: June 22, 2023

Clients13 min de lecture

 

Le rôle des données dans le secteur de l'aviation a une histoire riche. Les compagnies aériennes ont été parmi les premières à utiliser des ordinateurs centraux, et aujourd'hui, leur utilisation des données a évolué pour soutenir chaque aspect de l'entreprise. En grande partie grâce à la qualité et à la quantité des données, les compagnies aériennes comptent parmi les modes de transport les plus sûrs au monde.

Aujourd'hui, les compagnies aériennes doivent équilibrer plusieurs variables qui se produisent en tandem dans une danse chronologique : 

  • Les clients doivent prendre leur correspondance
  • Les bagages doivent être chargés dans les avions et suivis jusqu'à la même destination que les clients.
  • Équipages (par ex. pilotes, personnel de bord, équipages en transit) doivent être en position pour leurs vols tout en respectant les exigences légales de la FAA en matière de temps de service et de repos
  • Les avions sont constamment surveillés pour leurs besoins de maintenance, tout en garantissant la disponibilité des stocks de pièces là où ils sont nécessaires.
  • Les conditions météorologiques sont dynamiques sur des centaines de sites et d'itinéraires critiques, et les prévisions sont essentielles à la sécurité et à l'efficacité des opérations aériennes.
  • Les agences gouvernementales mettent régulièrement à jour les restrictions de l'espace aérien
  • Les autorités aéroportuaires mettent régulièrement à jour l'infrastructure aéroportuaire
  • Les agences gouvernementales mettent régulièrement à jour les restrictions de créneaux aéroportuaires et s'adaptent aux tensions géopolitiques.
  • Les forces macroéconomiques affectent constamment le prix du kérosène Jet-A et des carburants d'aviation durables (SAF).
  • Pour diverses raisons, les situations en vol nécessitent des ajustements actifs du système de la compagnie aérienne

Le rôle des données, et en particulier de l'analytique, de l'IA et du ML, est essentiel pour que les compagnies aériennes puissent offrir une expérience fluide à leurs clients, tout en maintenant des opérations efficaces pour atteindre des objectifs commerciaux optimaux.

Les compagnies aériennes sont aujourd'hui les Secteurs d'activité les plus data-driven en raison de la fréquence, du volume et de la variété des changements qui surviennent, car les clients dépendent de ce maillon essentiel de notre infrastructure de transport.

Pour un seul vol, par exemple, de New York à Londres, des centaines de décisions doivent être prises en fonction de facteurs englobant les clients, les équipages, les capteurs de l'avion, la météo en direct et les données du contrôle du trafic aérien (ATC) en direct. Une disruption majeure, telle qu'une violente tempête hivernale, peut affecter des milliers de vols à travers les États-Unis. Il est donc essentiel pour les compagnies aériennes de s'appuyer sur des données en temps réel et sur l'IA & le ML pour prendre des décisions proactives en temps réel.

Les avions génèrent des téraoctets de données de capteurs IoT en une seule journée, et les interactions des clients avec les canaux de réservation ou de libre-service, les changements opérationnels constants découlant des conditions météorologiques dynamiques et des contraintes du trafic aérien ne sont que quelques exemples illustrant la complexité, le volume, la variété et la vélocité des données d'une compagnie aérienne comme JetBlue.
 

Villes prioritaires
JetBlue Airway’s Routes

Avec six villes principales (Boston, Fort Lauderdale, Los Angeles, New York, Orlando, San Juan) et une forte concentration de vols dans le couloir aérien le plus fréquenté au monde, celui de New York, JetBlue a en 2023 :

Métriques

État des lieux des données et de l'IA chez JetBlue

En raison de l'importance stratégique des données chez JetBlue, l'équipe data est composée des équipes d'intégration de données, de Data Engineering, de Data Science commerciales, de Data Science Opérations, d'ingénierie de l'IA et du ML et de Business Intelligence, qui rendent compte directement au CTO.

L'infrastructure technologique actuelle de JetBlue est principalement centrée sur Azure, avec un data warehouse cloud multicloud et une architecture lakehouse fonctionnant simultanément à des fins diverses. Les données internes et externes sont continuellement enrichies dans la Databricks Data Intelligence Platform sous forme de flux batch, en quasi-temps réel et en temps réel.

L'utilisation de Delta Live Tables pour extraire, charger et transformer les données permet aux ingénieurs de données et aux Data Scientists de répondre à un large éventail d'exigences SLA de latence tout en alimentant les applications en aval, les pipelines d'IA et Pipelines de ML, les tableaux de bord BI et les besoins des analystes.

JetBlue utilise la bibliothèque BlueML développée en interne avec les fonctionnalités AutoML, AutoDeploy et de Magasin de fonctionnalités en ligne, ainsi que MLflow, les API de registre de modèles et des dépendances personnalisées pour l'entraînement et l'inférence de modèles d'IA et de ML.

Architecture Jet Blue
JetBlue’s Data, Analytics and Machine Learning Architecture

Les insights sont utilisées via des API REST qui connectent les tableaux de bord Tableau à  Databricks SQL serverless compute, une couche sémantique de diffusion rapide, et/ou à des API de service ML déployées.  

Le déploiement de nouveaux produits de ML s'accompagne souvent de solides processus de gestion du changement, en particulier dans les secteurs d'activité étroitement régis par les Réglementations aériennes fédérales et d'autres lois en raison de la sensibilité des données et de la prise de décision correspondante. Traditionnellement, une telle gestion du changement impliquait une série d'ateliers, de formations, de retours sur les produits et des moyens plus spécialisés pour les utilisateurs d'interagir avec le produit, tels que des KPI et des tableaux de bord spécifiques à chaque rôle.

À la lumière des récentes avancées en matière d'IA générative, la gestion traditionnelle du changement et la gestion des produits de ML ont été bouleversées. Les utilisateurs peuvent désormais utiliser la technologie sophistiquée des grands modèles linguistiques (LLM) pour accéder à des indicateurs de performance clés (KPI) et à des informations spécifiques à leur rôle, y compris une aide utilisant le langage naturel qu'ils connaissent. Cela réduit considérablement la formation requise pour un déploiement réussi du produit auprès des utilisateurs, le délai de traitement des retours sur les produits et, surtout, simplifie l'accès à des résumés d'insights pertinents. L'accès à l'information ne se mesure plus en clics, mais en nombre de mots dans la question.

Pour répondre aux besoins en matière d'IA générative et de ML, l'équipe d'ingénierie IA et ML de JetBlue s'est attachée à relever les défis de l'entreprise.

Secteurs d'activité Produit(s) stratégique(s)Résultat(s) stratégique(s)
Data Science commerciales
  • Tarifs dynamique des billets
  • Recommandation de produits pour les clients
  • Montée en gamme/vente croisée/reconquête du funnel de Ventes multi-Canal de distribution
  • Prévision des revenus & Prévision de la demande
  • Développer les sources de revenus nouvelles et existantes
  • Améliorer l'expérience client par la personnalisation, l'optimisation du temps d'embarquement & la priorisation de l'approche de résolution des problèmes clients
Data Science des opérations
  • Jumeau digital des Opérations aériennes (BlueSky)
  • Prévisions des ETA et ETD
  • Outils communs de connaissance de la situation
  • Optimisation des pièces & des stocks
  • Prévision de l'efficacité énergétique
  • Optimisation du réseau
  • Améliorer l'efficacité opérationnelle en réduisant le temps d'attente aux portes d'embarquement, en optimisant les affectations d'équipage, en réduisant les retards de vol et les émissions de CO2 grâce à une utilisation optimale du carburant.
Ingénierie de l'IA et du ML
  • LLM de découverte des données (Radar)
  • LLM d'interaction avec les produits
  • AutoML+AutoDeploy (BlueML)
  • Feature store
  • Automatisation CI/CD  
  • Accélérer la stratégie interne de mise sur le marché des produits en réduisant le temps nécessaire au MVP, à l'itération et au lancement
  • R&D de nouvelles approches d'IA et de ML chez JetBlue
Business Intelligence
  • Tableaux de bord en temps réel
  • Support analytique d'entreprise
  • Montée en compétences/compétences transversales en entreprise
  • Rapporter les KPI en temps réel aux dirigeants pour une prise de décision plus rapide
  • Améliorer l'accès et la connaissance des analystes aux données stockées dans le lakehouse et les Magasins de fonctionnalités – perfectionnement/polyvalence des compétences des analystes

Grâce à cette architecture, JetBlue a accéléré les déploiements d'IA et de ML pour un large éventail de cas d'utilisation couvrant quatre secteurs d'activité, chacun disposant de sa propre équipe d'IA et de ML. Voici les fonctions fondamentales des secteurs d'activité :

  • Commercial Data Science (CDS) - Croissance du chiffre d'affaires
  • Opérations Data Science (ODS) - Réduction des coûts
  • AI & ML Data Engineering – Optimisation du déploiement des produits pour la mise sur le marché
  • Business Intelligence – Mise à l'échelle et support du reporting en entreprise

Chaque secteur d'activité soutient plusieurs produits stratégiques qui sont régulièrement classés par ordre de priorité par la direction de JetBlue afin d'établir des KPI qui conduisent à des résultats stratégiques efficaces.

Pourquoi abandonner une architecture d'entrepôt de données multi-cloud

Les technologies des données et de l'IA sont essentielles pour prendre des décisions proactives en temps réel ; cependant, l'utilisation de plateformes d'architecture de données héritées a un impact sur les résultats de l'entreprise.

Les données de JetBlue sont principalement fournies via le data warehouse cloud multi-cloud, ce qui entraîne un manque de flexibilité pour les conceptions complexes, les changements de latence et l'évolutivité des coûts. 


Latence
Latence élevée - une latence de 10 minutes de l'architecture de données coûte à l'organisation des millions de dollars par an.

Architecture complexe
Architecture complexe : les multiples étapes du transfert de données entre plusieurs plateformes et produits s'avèrent inefficaces pour les cas d'usage du streaming en temps réel, car elles sont complexes et d'un coût prohibitif.

TCO de plateforme élevé
TCO de la plateforme élevé – Disposer de nombreuses plateformes de données de fournisseurs et de ressources pour gérer la plateforme de données entraîne des coûts d'exploitation élevés.

Mise à l'échelle
Mise à l'échelle – l'architecture de données actuelle a des problèmes de mise à l'échelle lors du traitement des exaoctets (grandes quantités de données) générés par de nombreux vols.  

En raison d'un manque d'hydratation du Magasin de fonctionnalités en ligne, la latence élevée de l'architecture traditionnelle a empêché nos data scientists de construire des pipelines d'entraînement et d'inférence ML évolutifs. Lorsque les data scientists et les ingénieurs en IA et ML du lakehouse ont eu la liberté d'associer plus étroitement les modèles de ML à l'architecture medallion, l'efficacité de la stratégie de commercialisation a été décuplée.

« Les architectures complexes, telles que la gestion dynamique des schémas et les transformations avec ou sans état, étaient difficiles à mettre en œuvre avec une architecture classique de data warehouse multi-cloud. Les data scientists et les data engineers peuvent désormais effectuer de tels changements à l’aide des tables évolutives Delta Live Tables, sans le moindre obstacle. » La possibilité de passer de SQL à Python et PySpark a considérablement augmenté la productivité de l'équipe Data de JetBlue.

En raison de l'incapacité des pipelines à monter en charge rapidement, le manque de conception open source évolutive dans les data warehouses multi-cloud a entraîné des analyses de cause racine (RCAs) complexes en cas de défaillance des pipelines, des tests/dépannages inefficaces et, au final, un TCO plus élevé. L'équipe data a suivi de près les dépenses de compute sur le MCDW par rapport à Databricks pendant la transition ; à mesure que de plus en plus de flux de données temps réel et à haut volume étaient activés pour la consommation, les coûts ETL/ELT ont augmenté à un rythme proportionnellement plus faible et linéaire par rapport à ceux de l'ancien multi data warehouse cloud.

La gouvernance des données est le plus grand obstacle au déploiement de l'IA générative et du machine learning au sein de toute organisation. Comme l'accès aux données et aux insights cruciales basé sur les rôles est étroitement surveillé dans les secteurs hautement réglementés comme l'aviation, ces secteurs sont fiers de leurs procédures de gouvernance des données efficaces. La nécessité d'embeddings organisés, qui ne sont possibles que dans des systèmes sophistiqués avec plus de 100 milliards de paramètres, comme le chatGPT d'OpenAI, complique la gouvernance des données de l'organisation. Une combinaison d'OpenAI pour les embeddings, de Dolly 2.0 de Databricks pour la Data Engineering rapide et du repository de documents hors ligne/en ligne de JetBlue est requise pour une gouvernance efficace de l'IA générative.

Ancienne architecture d'entrepôt de données cloud multi-cloud

Ancien data warehouse cloud
Previous Data Architecture with MCDW as central data store

Impact de l'architecture Lakehouse 

Avec la Databricks Data Intelligence Platform servant de hub central pour tous les cas d'usage de streaming, JetBlue fournit efficacement plusieurs produits et insights de ML et d'analytique en traitant des milliers d'attributs en temps réel. Ces attributs comprennent les données relatives aux vols, aux clients, à l'équipage, au trafic aérien et à la maintenance.

Le lakehouse fournit des données en temps réel via les Delta Live Tables, permettant le développement de pipelines de ML pour l'entraînement sur des données historiques et l'inférence en temps réel. Ces pipelines sont déployés en tant qu'APIs de service ML qui mettent à jour en continu un instantané du réseau du système JetBlue. Tout impact opérationnel résultant de diverses variables contrôlables et incontrôlables, telles que des conditions météorologiques changeant rapidement, des événements de maintenance d'aéronefs présentant des anomalies, des équipages approchant les limites légales de temps de service ou des restrictions du contrôle aérien (ATC) sur les arrivées/départs, se propage à travers le réseau. Cela permet des ajustements préventifs basés sur les alertes prévisionnelles.

Architecture Lakehouse actuelle

Architecture des données actuelle
Current Data Architecture built around the lakehouse for data, analytics and AI 

Des Streams en temps réel provenant de la météo, des capteurs d'avions, des flux de données de la FAA, des Opérations de JetBlue, et plus encore, sont utilisés pour le premier système d'exploitation d'IA et de ML au monde, qui orchestre un jumeau digital connu sous le nom de BlueSky pour des Opérations efficaces et sûres. JetBlue a plus de 10 produits de ML (plusieurs modèles pour chaque produit) en production dans divers secteurs verticaux, y compris la tarification dynamique, les moteurs de recommandation client, l'optimisation de la chaîne d'approvisionnement, le NLP de sentiment client et plusieurs autres.

Le jumeau digital des Opérations BlueSky est l'un des produits les plus complexes actuellement mis en œuvre chez JetBlue par l'équipe data et constitue l'épine dorsale des capacités de prévision et de simulation des Opérations aériennes de JetBlue.

Système d'exploitation IA BlueSky de JetBlue
JetBlue’s BlueSky AI Operating System 

BlueSky, qui est maintenant en cours de déploiement progressif, permet à JetBlue de réaliser des gains d'efficacité opérationnelle grâce à une prise de décision pro-active et optimale, ce qui se traduit par une plus grande satisfaction des clients et du personnel de bord, une meilleure efficacité énergétique et des économies pour la compagnie aérienne.

De plus, l'équipe a collaboré avec les API Microsoft Azure OpenAI et Databricks Dolly pour créer une solution robuste qui répond aux exigences de gouvernance de l'IA générative afin d'accélérer le développement réussi de BlueSky et de produits similaires avec une gestion du changement minimale et une gestion efficace des produits de ML.  

 

Architecture du système d'IA générative de JetBlue
JetBlue’s Generative AI system architecture

Le service API Microsoft Azure OpenAI propose des capacités de download d'embeddings en bac à sable pour le stockage dans un magasin de documents de base de données vectorielle. Dolly 2.0 de Databricks fournit un mécanisme pour une ingénierie de Data Engineering rapide en permettant un accès basé sur les rôles de Unity Catalog aux documents dans le magasin de documents de la base de données vectorielle. Grâce à ce framework, tout utilisateur de JetBlue peut accéder au même chatbot dissimulé derrière les protocoles SSO d'Azure AD et les listes de contrôle d'accès (ACL) de Databricks Unity Catalog. Chaque produit, y compris le digital twin en temps réel BlueSky, est livré avec des LLM intégrés.
 

Le chatbot de JetBlue basé sur les API Microsoft Azure OpenAI et Databricks Dolly
JetBlue’s Chatbot based on  Microsoft Azure OpenAI APIs and Databricks Dolly

En déployant des produits d'entreprise d'IA et de ML sur Databricks à l'aide des données du lakehouse, JetBlue a jusqu'à présent atteint un multiple de retour sur investissement (ROI) relativement élevé en l'espace de deux ans. De plus, Databricks permet aux équipes de science des données et d'analytique de prototyper, d'itérer et de lancer rapidement des pipelines de données, des Jobs et des modèles de ML à l'aide du lakehouse, de MLflow et de Databricks SQL.

Notre équipe dédiée chez JetBlue est enthousiaste quant à l'avenir, car nous nous efforçons de mettre en œuvre les dernières fonctionnalités de pointe proposées par Databricks. En tirant parti de ces avancées, nous visons à porter l'expérience de nos clients à un niveau supérieur et à améliorer continuellement la valeur globale que nous offrons. L'un de nos principaux objectifs est de réduire notre coût total de possession (TCO), en veillant à ce qu'ils obtiennent un retour optimal sur leurs investissements.

Rejoignez-nous au Data + AI Summit 2023, où nous discuterons de la puissance du lakehouse pendant la keynote, plongerons au cœur de notre fascinant Parcours de jumeau digital IA & ML en temps réel et partagerons nos perspectives sur la manière dont nous avons géré les complexités des grands modèles de langage

 

Découvrez notre histoire en vidéo ici

 

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.

Et ensuite ?

Databricks Named a Leader in 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems

Notícias

December 23, 2024/8 min de leitura

Databricks nomeada líder no Quadrante Mágico da Gartner® de 2024 para sistemas de gerenciamento de banco de dados em nuvem

Zerobus Ingest diagram

Anúncios

October 30, 2025/7 min de leitura

Anunciando a prévia pública do Zerobus Ingest