Ce blog a été écrit par Sai Ravuru, responsable principal de la Data Science et analytique chez JetBlue
Le rôle des données dans le secteur de l'aviation a une histoire riche. Les compagnies aériennes ont été parmi les premières à utiliser des ordinateurs centraux, et aujourd'hui, leur utilisation des données a évolué pour soutenir chaque aspect de l'entreprise. En grande partie grâce à la qualité et à la quantité des données, les compagnies aériennes comptent parmi les modes de transport les plus sûrs au monde.
Aujourd'hui, les compagnies aériennes doivent équilibrer plusieurs variables qui se produisent en tandem dans une danse chronologique :
Le rôle des données, et en particulier de l'analytique, de l'IA et du ML, est essentiel pour que les compagnies aériennes puissent offrir une expérience fluide à leurs clients, tout en maintenant des opérations efficaces pour atteindre des objectifs commerciaux optimaux.
Les compagnies aériennes sont aujourd'hui les Secteurs d'activité les plus data-driven en raison de la fréquence, du volume et de la variété des changements qui surviennent, car les clients dépendent de ce maillon essentiel de notre infrastructure de transport.
Pour un seul vol, par exemple, de New York à Londres, des centaines de décisions doivent être prises en fonction de facteurs englobant les clients, les équipages, les capteurs de l'avion, la météo en direct et les données du contrôle du trafic aérien (ATC) en direct. Une disruption majeure, telle qu'une violente tempête hivernale, peut affecter des milliers de vols à travers les États-Unis. Il est donc essentiel pour les compagnies aériennes de s'appuyer sur des données en temps réel et sur l'IA & le ML pour prendre des décisions proactives en temps réel.
Les avions génèrent des téraoctets de données de capteurs IoT en une seule journée, et les interactions des clients avec les canaux de réservation ou de libre-service, les changements opérationnels constants découlant des conditions météorologiques dynamiques et des contraintes du trafic aérien ne sont que quelques exemples illustrant la complexité, le volume, la variété et la vélocité des données d'une compagnie aérienne comme JetBlue.
Avec six villes principales (Boston, Fort Lauderdale, Los Angeles, New York, Orlando, San Juan) et une forte concentration de vols dans le couloir aérien le plus fréquenté au monde, celui de New York, JetBlue a en 2023 :

En raison de l'importance stratégique des données chez JetBlue, l'équipe data est composée des équipes d'intégration de données, de Data Engineering, de Data Science commerciales, de Data Science Opérations, d'ingénierie de l'IA et du ML et de Business Intelligence, qui rendent compte directement au CTO.
L'infrastructure technologique actuelle de JetBlue est principalement centrée sur Azure, avec un data warehouse cloud multicloud et une architecture lakehouse fonctionnant simultanément à des fins diverses. Les données internes et externes sont continuellement enrichies dans la Databricks Data Intelligence Platform sous forme de flux batch, en quasi-temps réel et en temps réel.
L'utilisation de Delta Live Tables pour extraire, charger et transformer les données permet aux ingénieurs de données et aux Data Scientists de répondre à un large éventail d'exigences SLA de latence tout en alimentant les applications en aval, les pipelines d'IA et Pipelines de ML, les tableaux de bord BI et les besoins des analystes.
JetBlue utilise la bibliothèque BlueML développée en interne avec les fonctionnalités AutoML, AutoDeploy et de Magasin de fonctionnalités en ligne, ainsi que MLflow, les API de registre de modèles et des dépendances personnalisées pour l'entraînement et l'inférence de modèles d'IA et de ML.
Les insights sont utilisées via des API REST qui connectent les tableaux de bord Tableau à Databricks SQL serverless compute, une couche sémantique de diffusion rapide, et/ou à des API de service ML déployées.
Le déploiement de nouveaux produits de ML s'accompagne souvent de solides processus de gestion du changement, en particulier dans les secteurs d'activité étroitement régis par les Réglementations aériennes fédérales et d'autres lois en raison de la sensibilité des données et de la prise de décision correspondante. Traditionnellement, une telle gestion du changement impliquait une série d'ateliers, de formations, de retours sur les produits et des moyens plus spécialisés pour les utilisateurs d'interagir avec le produit, tels que des KPI et des tableaux de bord spécifiques à chaque rôle.
À la lumière des récentes avancées en matière d'IA générative, la gestion traditionnelle du changement et la gestion des produits de ML ont été bouleversées. Les utilisateurs peuvent désormais utiliser la technologie sophistiquée des grands modèles linguistiques (LLM) pour accéder à des indicateurs de performance clés (KPI) et à des informations spécifiques à leur rôle, y compris une aide utilisant le langage naturel qu'ils connaissent. Cela réduit considérablement la formation requise pour un déploiement réussi du produit auprès des utilisateurs, le délai de traitement des retours sur les produits et, surtout, simplifie l'accès à des résumés d'insights pertinents. L'accès à l'information ne se mesure plus en clics, mais en nombre de mots dans la question.
Pour répondre aux besoins en matière d'IA générative et de ML, l'équipe d'ingénierie IA et ML de JetBlue s'est attachée à relever les défis de l'entreprise.
| Secteurs d'activité | Produit(s) stratégique(s) | Résultat(s) stratégique(s) |
| Data Science commerciales |
|
|
| Data Science des opérations |
|
|
| Ingénierie de l'IA et du ML |
|
|
| Business Intelligence |
|
|
Grâce à cette architecture, JetBlue a accéléré les déploiements d'IA et de ML pour un large éventail de cas d'utilisation couvrant quatre secteurs d'activité, chacun disposant de sa propre équipe d'IA et de ML. Voici les fonctions fondamentales des secteurs d'activité :
Chaque secteur d'activité soutient plusieurs produits stratégiques qui sont régulièrement classés par ordre de priorité par la direction de JetBlue afin d'établir des KPI qui conduisent à des résultats stratégiques efficaces.
Les technologies des données et de l'IA sont essentielles pour prendre des décisions proactives en temps réel ; cependant, l'utilisation de plateformes d'architecture de données héritées a un impact sur les résultats de l'entreprise.
Les données de JetBlue sont principalement fournies via le data warehouse cloud multi-cloud, ce qui entraîne un manque de flexibilité pour les conceptions complexes, les changements de latence et l'évolutivité des coûts.
![]() | Latence élevée - une latence de 10 minutes de l'architecture de données coûte à l'organisation des millions de dollars par an. |
![]() | Architecture complexe : les multiples étapes du transfert de données entre plusieurs plateformes et produits s'avèrent inefficaces pour les cas d'usage du streaming en temps réel, car elles sont complexes et d'un coût prohibitif. |
![]() | TCO de la plateforme élevé – Disposer de nombreuses plateformes de données de fournisseurs et de ressources pour gérer la plateforme de données entraîne des coûts d'exploitation élevés. |
![]() | Mise à l'échelle – l'architecture de données actuelle a des problèmes de mise à l'échelle lors du traitement des exaoctets (grandes quantités de données) générés par de nombreux vols. |
En raison d'un manque d'hydratation du Magasin de fonctionnalités en ligne, la latence élevée de l'architecture traditionnelle a empêché nos data scientists de construire des pipelines d'entraînement et d'inférence ML évolutifs. Lorsque les data scientists et les ingénieurs en IA et ML du lakehouse ont eu la liberté d'associer plus étroitement les modèles de ML à l'architecture medallion, l'efficacité de la stratégie de commercialisation a été décuplée.
« Les architectures complexes, telles que la gestion dynamique des schémas et les transformations avec ou sans état, étaient difficiles à mettre en œuvre avec une architecture classique de data warehouse multi-cloud. Les data scientists et les data engineers peuvent désormais effectuer de tels changements à l’aide des tables évolutives Delta Live Tables, sans le moindre obstacle. » La possibilité de passer de SQL à Python et PySpark a considérablement augmenté la productivité de l'équipe Data de JetBlue.
En raison de l'incapacité des pipelines à monter en charge rapidement, le manque de conception open source évolutive dans les data warehouses multi-cloud a entraîné des analyses de cause racine (RCAs) complexes en cas de défaillance des pipelines, des tests/dépannages inefficaces et, au final, un TCO plus élevé. L'équipe data a suivi de près les dépenses de compute sur le MCDW par rapport à Databricks pendant la transition ; à mesure que de plus en plus de flux de données temps réel et à haut volume étaient activés pour la consommation, les coûts ETL/ELT ont augmenté à un rythme proportionnellement plus faible et linéaire par rapport à ceux de l'ancien multi data warehouse cloud.
La gouvernance des données est le plus grand obstacle au déploiement de l'IA générative et du machine learning au sein de toute organisation. Comme l'accès aux données et aux insights cruciales basé sur les rôles est étroitement surveillé dans les secteurs hautement réglementés comme l'aviation, ces secteurs sont fiers de leurs procédures de gouvernance des données efficaces. La nécessité d'embeddings organisés, qui ne sont possibles que dans des systèmes sophistiqués avec plus de 100 milliards de paramètres, comme le chatGPT d'OpenAI, complique la gouvernance des données de l'organisation. Une combinaison d'OpenAI pour les embeddings, de Dolly 2.0 de Databricks pour la Data Engineering rapide et du repository de documents hors ligne/en ligne de JetBlue est requise pour une gouvernance efficace de l'IA générative.
Avec la Databricks Data Intelligence Platform servant de hub central pour tous les cas d'usage de streaming, JetBlue fournit efficacement plusieurs produits et insights de ML et d'analytique en traitant des milliers d'attributs en temps réel. Ces attributs comprennent les données relatives aux vols, aux clients, à l'équipage, au trafic aérien et à la maintenance.
Le lakehouse fournit des données en temps réel via les Delta Live Tables, permettant le développement de pipelines de ML pour l'entraînement sur des données historiques et l'inférence en temps réel. Ces pipelines sont déployés en tant qu'APIs de service ML qui mettent à jour en continu un instantané du réseau du système JetBlue. Tout impact opérationnel résultant de diverses variables contrôlables et incontrôlables, telles que des conditions météorologiques changeant rapidement, des événements de maintenance d'aéronefs présentant des anomalies, des équipages approchant les limites légales de temps de service ou des restrictions du contrôle aérien (ATC) sur les arrivées/départs, se propage à travers le réseau. Cela permet des ajustements préventifs basés sur les alertes prévisionnelles.
Des Streams en temps réel provenant de la météo, des capteurs d'avions, des flux de données de la FAA, des Opérations de JetBlue, et plus encore, sont utilisés pour le premier système d'exploitation d'IA et de ML au monde, qui orchestre un jumeau digital connu sous le nom de BlueSky pour des Opérations efficaces et sûres. JetBlue a plus de 10 produits de ML (plusieurs modèles pour chaque produit) en production dans divers secteurs verticaux, y compris la tarification dynamique, les moteurs de recommandation client, l'optimisation de la chaîne d'approvisionnement, le NLP de sentiment client et plusieurs autres.
Le jumeau digital des Opérations BlueSky est l'un des produits les plus complexes actuellement mis en œuvre chez JetBlue par l'équipe data et constitue l'épine dorsale des capacités de prévision et de simulation des Opérations aériennes de JetBlue.
BlueSky, qui est maintenant en cours de déploiement progressif, permet à JetBlue de réaliser des gains d'efficacité opérationnelle grâce à une prise de décision pro-active et optimale, ce qui se traduit par une plus grande satisfaction des clients et du personnel de bord, une meilleure efficacité énergétique et des économies pour la compagnie aérienne.
De plus, l'équipe a collaboré avec les API Microsoft Azure OpenAI et Databricks Dolly pour créer une solution robuste qui répond aux exigences de gouvernance de l'IA générative afin d'accélérer le développement réussi de BlueSky et de produits similaires avec une gestion du changement minimale et une gestion efficace des produits de ML.
Le service API Microsoft Azure OpenAI propose des capacités de download d'embeddings en bac à sable pour le stockage dans un magasin de documents de base de données vectorielle. Dolly 2.0 de Databricks fournit un mécanisme pour une ingénierie de Data Engineering rapide en permettant un accès basé sur les rôles de Unity Catalog aux documents dans le magasin de documents de la base de données vectorielle. Grâce à ce framework, tout utilisateur de JetBlue peut accéder au même chatbot dissimulé derrière les protocoles SSO d'Azure AD et les listes de contrôle d'accès (ACL) de Databricks Unity Catalog. Chaque produit, y compris le digital twin en temps réel BlueSky, est livré avec des LLM intégrés.
En déployant des produits d'entreprise d'IA et de ML sur Databricks à l'aide des données du lakehouse, JetBlue a jusqu'à présent atteint un multiple de retour sur investissement (ROI) relativement élevé en l'espace de deux ans. De plus, Databricks permet aux équipes de science des données et d'analytique de prototyper, d'itérer et de lancer rapidement des pipelines de données, des Jobs et des modèles de ML à l'aide du lakehouse, de MLflow et de Databricks SQL.
Notre équipe dédiée chez JetBlue est enthousiaste quant à l'avenir, car nous nous efforçons de mettre en œuvre les dernières fonctionnalités de pointe proposées par Databricks. En tirant parti de ces avancées, nous visons à porter l'expérience de nos clients à un niveau supérieur et à améliorer continuellement la valeur globale que nous offrons. L'un de nos principaux objectifs est de réduire notre coût total de possession (TCO), en veillant à ce qu'ils obtiennent un retour optimal sur leurs investissements.
Rejoignez-nous au Data + AI Summit 2023, où nous discuterons de la puissance du lakehouse pendant la keynote, plongerons au cœur de notre fascinant Parcours de jumeau digital IA & ML en temps réel et partagerons nos perspectives sur la manière dont nous avons géré les complexités des grands modèles de langage.
Découvrez notre histoire en vidéo ici.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Notícias
December 23, 2024/8 min de leitura