Grands modèles de langage (LLM)
Que sont les grands modèles de langage (LLM) ?
Les grands modèles de langage (LLM) représentent une nouvelle classe de modèles de traitement du langage naturel (NLP). Leurs performances et leurs capacités surpassent considérablement celles de leurs prédécesseurs dans un large éventail de tâches : réponse à des questions ouvertes, conversation, résumé de contenu, exécution d'instructions quasi arbitraires, traduction, mais aussi génération de contenu et de code. Les LLM sont entraînés sur des datasets extrêmement volumineux à l'aide d'algorithmes sophistiqués de machine learning, grâce auxquels ils apprennent les motifs et les structures du langage humain.
Poursuivez votre exploration
Le Grand Livre des MLOps
Une lecture incontournable pour les ingénieurs ML et les data scientists qui veulent optimiser leur pratique MLOps
Puisez dans le potentiel des LLM
Comment gagner en efficacité et réduire les coûts avec l'IA.
Créez votre propre LLM à l'instar de Dolly
Apprenez à régler et déployer votre LLM personnalisé.
Comment fonctionnent les grands modèles de langage (LLM) ?
Les grands modèles de langage, ou LLM, se composent généralement de trois éléments architecturaux :
- Encodeur : une fois qu'un tokéniseur a converti de grandes quantités de texte en jetons, qui sont des valeurs numériques, l'encodeur crée des intégrations pertinentes de ces jetons pour rapprocher les mots ayant un sens proche dans l'espace vectoriel.
- Mécanismes d'attention : ces algorithmes sont utilisés dans les LLM pour permettre au modèle de se concentrer sur des aspects spécifiques du texte d'entrée et établir des liens entre les mots connexes. Ce processus n'est pas séparé de l'encodeur et du décodeur.
- Décodeur : le tokéniseur reconvertit les jetons en mots pour qu'ils soient compréhensibles par l'humain. Au cours de ce processus, le LLM prédit le mot suivant, puis celui d'après, et ce pour des millions de mots. Une fois que le modèle a terminé son processus d'apprentissage, il peut accomplir de nouvelles tâches : répondre à des questions, traduire du texte, faire des recherches sémantiques, etc.
Comment fonctionnent les LLM ?
Une version simplifiée du processus d'entraînement des LLM
Découvrez ce que sont les transformateurs, le fondement de tous les LLM
Quelle est l'histoire des grands modèles de langage (LLM) ?
Les techniques employées dans les LLM représentent le pinacle de recherches et de travaux accomplis dans le domaine de l'intelligence artificielle depuis les années 1940.
Années 1940
Le premier article scientifique portant sur les réseaux de neurones a été publié en 1943.
1989
Lecun publie un article scientifique sur la reconnaissance des chiffres et décrit comment un réseau à propagation arrière peut être appliqué à des problèmes de reconnaissance d'image.
2012
Un article d'Hinton et al montre comment les réseaux de neurones profonds surpassent tous les modèles précédents en matière de reconnaissance vocale.
Un réseau de neurones à convolution (AlexNet) réduit de moitié le taux d'erreurs de la reconnaissance d'image Imagenet et devient le premier à franchir le seuil des 75 % de précision. Il exploite de nouvelles techniques, notamment l'utilisation de GPU au moment de l'entraînement.
2017
Un article révolutionnaire, « Attention is All you Need », introduit l'architecture de transformation qui est aujourd'hui à la base de tous les LLM.
2018
Google introduit BERT (représentations d'encodeur bidirectionnel à partir de transformateurs), une avancée majeure dans l'architecture qui ouvre la voie aux futurs grands modèles de langage.
2020
OpenAI publie GPT-3, qui devient le plus grand modèle avec 175 milliards de paramètres et la nouvelle référence de performance pour toutes les tâches liées au langage.
2022
Lancement de ChatGPT, qui transforme GPT-3 et des modèles similaires en service accessible aux utilisateurs via une interface web et fait connaître les LLM et l'IA générative au grand public.
2023
Les LLM open source affichent des résultats de plus en plus impressionnants avec le lancement de LLaMA 2, Falcon et MosaicML MPT. C'est également l'année du lancement de GPT-4, qui relève encore le niveau de référence en termes de nombre de paramètres et de performance.
Quelles sont les applications des LLM ?
Les LLM peuvent avoir un impact dans de nombreux domaines, tous secteurs confondus. Voici quelques cas d'usage typiques :
- Robots conversationnels et assistants virtuels : les LLM sont utilisés pour alimenter des chatbots destinés aux clients et aux collaborateurs d'une entreprise. Ces robots peuvent fournir une assistance, assurer le suivi des prises de contact via le site web ou servir d'assistant personnel.
- Génération de code et débogage : les LLM peuvent produire des extraits de code utiles, identifier et corriger des erreurs dans le code, et compléter des programmes sur la base d'instructions d'entrée.
- Analyse du sentiment : les LLM peuvent interpréter le sentiment d'un texte pour automatiser la compréhension de la satisfaction des clients.
- Classification et regroupement de textes : les LLM peuvent organiser, catégoriser et trier de grands volumes de données pour identifier des thèmes et des tendances afin d'enrichir la prise de décision.
- Traduction : les LLM peuvent traduire des documents et des pages web dans différentes langues.
- Synthèse et paraphrase : les LLM peuvent résumer des articles, des publications, des appels de clients ou des réunions, en mettant en relief les points les plus importants.
- Génération de contenu : les LLM peuvent rédiger un synopsis ou du nouveau contenu pouvant servir d'ébauche ou d'amorce.
Quelques clients ayant déployé des LLM avec d'excellents résultats
JetBlue
JetBlue a déployé « BlueBot », un robot conversationnel qui s'appuie sur des modèles open source d'IA générative enrichis de données d'entreprise, exécuté avec Databricks. Ce chatbot est à la disposition de toutes les équipes de JetBlue pouvant accéder à des données en fonction de leur rôle. L'équipe « finance », par exemple, peut consulter les données SAP et les déclarations réglementaires, mais les équipes d'exploitation ne verront que les informations de maintenance.
Chevron Phillips
Chevron Phillips Chemical utilise Databricks pour soutenir ses initiatives d'IA générative et automatiser le traitement de ses documents.
Thrivent Financial
Thrivent Financial se tourne vers l'IA générative pour améliorer la recherche, produire des résumés et des insights plus accessibles, et améliorer la productivité de l'ingénierie.
Pourquoi les grands modèles de langage (LLM) connaissent-ils soudain une telle popularité ?
Plusieurs percées technologiques récentes ont propulsé les LLM sur le devant de la scène :
- Progrès des technologies de machine learning
- Les LLM bénéficient de nombreuses avancées dans les techniques de ML. La plus notable est certainement l'architecture des transformateurs, qui est à la base de la plupart des LLM.
- Accessibilité élargie
- La publication de ChatGPT a permis à toute personne ayant accès à Internet d'interagir avec l'un des LLM les plus sophistiqués au monde, à l'aide d'une simple interface web. C'est ce qui a permis au monde entier de prendre conscience de la puissance des LLM.
- Augmentation de la puissance de calcul
- Avec l'apparition de ressources de calcul bien supérieures, à commencer par les processeurs graphiques (GPU), et l'amélioration des techniques de traitement des données, les chercheurs ont la possibilité d'entraîner des modèles bien plus vastes.
- Quantité et qualité des données d'entraînement
- Les performances des modèles se sont considérablement améliorées avec la disponibilité de grands datasets et l'amélioration des capacités de traitement. GPT-3, par exemple, a été entraîné sur des big data (environ 500 milliards de jetons) qui comprenaient des sous-ensembles de grande qualité. Le dataset WebText2 (17 millions de documents), notamment, rassemble le contenu de pages web publiques choisies pour leur qualité.
Puis-je utiliser les données de mon organisation pour personnaliser un LLM ?
Lorsque vous cherchez à personnaliser une application de LLM avec les données de votre organisation, vous devez examiner quatre modèles d'architecture. Ces différentes techniques, décrites plus bas, ne s'excluent pas les unes les autres. Au contraire, elles peuvent (et doivent) être combinées pour tirer parti de leurs forces respectives.
Méthode | Définition | Cas d'usage principal | Exigences en matière de données | Avantages | Facteurs |
---|---|---|---|---|---|
Élaboration de prompts spécialisés visant à orienter le comportement du LLM | Guidage rapide, à la volée | Aucun | Rapide, économique, sans entraînement | Moins de contrôle que le réglage fin | |
Le LLM est combiné à de la récupération de connaissances extérieures | Datasets dynamiques et connaissances externes | Base de connaissances ou de données externes (base de donn ées vectorielle, par exemple) | Contexte actualisé dynamiquement, précision accrue | Augmente la longueur des prompts et le calcul d'inférences | |
Adaptation d'un LLM préentraîné à des datasets ou des domaines spécifiques | Spécialisation pour un domaine ou une tâche | Des milliers d'exemples spécifiques ou d'instructions | Contrôle granulaire, spécialisation élevée | Nécessite des données étiquetées, coût de calcul important | |
Entraînement d'un LLM à partir de zéro | Tâches uniques ou corpus propre à un domaine | Grands datasets (milliards, voire milliers de milliards de jetons) | Contrôle maximum, spécialement adapté à des besoins spécifiques | Consomme une grande quantité de ressources |
Quelle que soit la technique choisie, l'organisation devra créer sa solution en adoptant une approche modulaire et rigoureusement structurée pour se préparer à l'itérer et à l'adapter. Pour en savoir plus sur ce sujet et d'autres, lisez le Grand Livre des MLOps.