Large Language Models (LLMs)
Was sind Large Language Models (LLMs)?
Large Language Models (LLMs) stellen eine neue Klasse von Modellen für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) dar, die ihre Vorgänger in Sachen Leistung und Kompetenz bei einer Vielzahl von Aufgaben – wie der Beantwortung offener Fragen, Chats, Inhaltszusammenfassungen, der Ausführung nahezu willkürlicher Anweisungen, der Sprachübersetzung sowie der Inhalts- und Codegenerierung – deutlich in den Schatten stellen. LLMs werden mithilfe fortschrittlicher Machine-Learning-Algorithmen auf der Grundlage umfangreicher Datasets trainiert, um die Muster und Strukturen der menschlichen Sprache zu erlernen.
Ähnliche Themen erkunden
Das Big Book zu MLOps
Pflichtlektüre für ML-Engineers und Data Scientists, die nach einer besseren Methode zur Durchführung von MLOps suchen
Das Potenzial von LLMs erschließen
So erzielen Sie mit KI Effizienzsteigerungen und senken Ihre Kosten.
Erstellen Sie Ihr eigenes LLM – wie Dolly
Finden Sie heraus, wie Sie das Fine-Tuning Ihres maßgeschneiderten LLM vornehmen und es implementieren.
Wie funktionieren Large Language Models (LLMs)?
Large Language Models bestehen in der Regel aus drei Architekturkomponenten:
- Encoder: Nachdem ein Tokenizer große Textmengen in Tokens, d. h. numerische Werte, umgewandelt hat, erstellt der Encoder sinnvolle Einbettungen von Tokens, die Wörter mit ähnlicher Bedeutung im Vektorraum nahe beieinander platzieren.
- Aufmerksamkeitsmechanismen: Solche Algorithmen werden in LLMs verwendet und ermöglichen dem Modell, den Schwerpunkt auf bestimmte Teile des Eingabetextes zu legen, z. B. auf zusammenhängende Wörter im Text. Dies erfolgt nicht getrennt von Encoder und Decoder.
- Decoder: Der Tokenizer wandelt die Tokens wieder in Wörter um, damit wir sie verstehen können. Bei diesem Vorgang sagt das LLM für Millionen von Wörtern das jeweils nächste und übernächste Wort voraus. Nachdem die Modelle ihren Trainingsvorgang abgeschlossen haben, können sie neue Aufgaben wie die Beantwortung von Fragen, Sprachübersetzungen, semantische Suche und vieles mehr erledigen.
Wie funktionieren LLMs?
Eine vereinfachte Version des LLM-Trainingsvorgangs
Weitere Informationen zu Transformern, die die Grundlage jedes LLM bilden
Wie sieht der Werdegang von Large Language Models aus?
Die in LLMs verwendeten Techniken sind ein Höhepunkt der Forschung und Arbeit im Bereich der künstlichen Intelligenz, die ihren Ursprung in den 1940er-Jahren hat.
1940er-Jahre
Die erste wissenschaftliche Arbeit über neuronale Netze wurde 1943 veröffentlicht.
1989
Yann LeCun veröffentlicht eine wissenschaftliche Abhandlung über die Erkennung von Ziffern, die zeigt, dass ein Backpropagation-Netzwerk auf Bilderkennungsprobleme angewendet werden kann.
2012
Eine Veröffentlichung von Geoffrey Hinton und anderen belegt, dass Deep Neural Networks alle bisherigen Modelle zur Spracherkennung deutlich übertreffen.
Ein CNN (Convolutional Neural Network) namens AlexNet halbiert die bisherige Fehlerquote bei der visuellen Erkennung in ImageNet und erreicht damit erstmals eine Genauigkeit von 75 %. Es werden neue Techniken vorgestellt, darunter der Einsatz von GPUs zum Trainieren von Modellen.
2017
In der bahnbrechenden Arbeit „Attention is All you Need“ wird die Transformer-Architektur vorgestellt, die allen LLMs zugrunde liegt.
2018
Google führt BERT (Bidirectional Encoder Representations from Transformers) ein. Dies stellt einen großen Sprung in der Architektur dar und ebnet den Weg für zukünftige Large Language Models.
2020
OpenAI veröffentlicht GPT-3, das mit 175 Mrd. Parametern das größte Modell wird und einen neuen Leistungsmaßstab für sprachbezogene Aufgaben setzt.
2022
ChatGPT wird eingeführt. Hier wird aus GPT-3 und ähnlichen Modellen ein Service erstellt, der den Nutzern über eine Weboberfläche weithin zugänglich ist und einen enormen Anstieg des öffentlichen Bewusstseins für LLMs und generative KI auslöst.
2023
Open-Source-LLMs wie LLaMA 2, Falcon und MosaicML MPT erbringen zunehmend beeindruckende Ergebnisse. Auch GPT-4 wird veröffentlicht und setzt neue Maßstäbe hinsichtlich Parametergröße und Leistung.
Welche Anwendungsfälle gibt es für LLMs?
LLMs unterstützen viele Anwendungsfälle und können das geschäftliche Wachstum von Unternehmen aus verschiedensten Branchen befeuern. Exemplarisch seien genannt:
- Chatbots und virtuelle Assistenten: LLMs werden verwendet, um Chatbots zu betreiben. Hiermit können Kunden und Mitarbeiter offene Dialoge führen, um die Kundenbetreuung zu unterstützen, auf der Website bei Leads nachzufassen und als persönlicher Assistent zu fungieren.
- Codegenerierung und Debugging: LLMs können nützliche Codefragmente generieren, Fehler im Code erkennen und beheben sowie Programme auf der Grundlage eingegebener Anweisungen vervollständigen.
- Stimmungsanalyse: LLMs können die Stimmung in einem Text automatisch verstehen, um etwa das Ausmaß der Kundenzufriedenheit selbstständig nachzuvollziehen.
- Textklassifizierung und Clustering: LLMs können große Datenmengen organisieren, kategorisieren und sortieren, um Gemeinsamkeiten und Trends zu erkennen, die eine fundierte Entscheidungsfindung unterstützen.
- Sprachübersetzung: LLMs können Dokumente und Webseiten in verschiedene Sprachen übersetzen.
- Zusammenfassungen und Paraphrasen: LLMs können Abhandlungen, Artikel, Kundengespräche oder Meetings zusammenfassen und die wichtigsten Punkte herausarbeiten.
- Inhaltserstellung: LLMs können eine Gliederung entwickeln oder neue Inhalte schreiben, die einen guten ersten Entwurf darstellen, auf dem man aufbauen kann.
Welche Beispiele gibt es, bei denen LLMs von Kunden effektiv eingesetzt wurden?
JetBlue
JetBlue hat „BlueBot“ implementiert. BlueBot ist ein Chatbot, der Open-Source-GenAI-Modelle nutzt und diese – gestützt auf Databricks – mit Unternehmensdaten ergänzt. Dieser Chatbot kann von allen Teams bei JetBlue genutzt werden, um auf Rollenbasis Zugriff auf Daten zu erhalten. So kann beispielsweise das Finanzteam Daten aus SAP und behördliche Unterlagen einsehen, während das Betriebsteam nur Wartungsinformationen erhält.
Chevron Phillips
Chevron Phillips Chemical nutzt Databricks zur Unterstützung seiner GenAI-Initiativen, etwa zur Automatisierung von Dokumentprozessen.
Thrivent Financial
Thrivent Financial setzt auf generative KI, um die Suchfunktion zu optimieren, bessere Zusammenfassungen und leichter zugängliche Erkenntnisse zu generieren und die Produktivität der Entwicklungsabteilung zu verbessern.
Wieso sind Large Language Models plötzlich so beliebt geworden?
Es sind vor allem zahlreiche technologische Fortschritte, die LLMs ins Rampenlicht haben rücken lassen:
- Weiterentwicklung von Technologien für maschinelles Lernen
- LLMs machen sich viele Fortschritte bei ML-Techniken zunutze. Am bemerkenswertesten ist die Transformer-Architektur, die den meisten LLMs zugrunde liegt.
- Bessere Zugangsmöglichkeiten
- Mit der Veröffentlichung von ChatGPT wurde jedem Nutzer, der über einen Internetzugang verfügt, über eine einfache Weboberfläche die Interaktion mit einem der fortschrittlichsten LLM ermöglicht. So lernt die Welt die Leistungsfähigkeit von LLMs kennen.
- Höhere Rechenleistung
- Mit der Verfügbarkeit von leistungsfähigeren Rechenressourcen, wie z. B. Grafikprozessoren (GPUs), und besseren Datenverarbeitungstechniken konnten Forscher deutlich größere Modelle trainieren.
- Menge und Qualität der Trainingsdaten
- Das Vorhandensein großer Datasets und die Möglichkeit, diese auch zu verarbeiten, haben die Leistung der Modelle drastisch verbessert. GPT-3 wurde beispielsweise mit Big Data (ca. 500 Mrd. Tokens) trainiert, die auch kleinere hochwertige Datasets wie das WebText2-Dataset (17 Mio. Dokumente) umfassten, das öffentlich gecrawlte Webseiten mit Schwerpunkt auf Qualität enthält.
Wie kann ich ein LLM mit den Daten meines Unternehmens anpassen?
Bei der Anpassung einer LLM-Anwendung an die Daten Ihres Unternehmens sind vier Architekturmuster zu berücksichtigen. Diese Techniken werden im Folgenden beschrieben und schließen sich nicht gegenseitig aus. Vielmehr können (und sollten) sie kombiniert werden, um die Stärken einer jeden zu nutzen.
Methode | Definition | Primärer Anwendungsfall | Datenanforderungen | Vorteile | Überlegungen |
---|---|---|---|---|---|
Formulierung spezieller Prompts zur Steuerung des LLM-Verhaltens | Schnelle, spontane Modellführung | N/A | Schnell, kostengünstig, kein Training erforderlich | Weniger Kontrolle als beim Fine-Tuning | |
Kombiniert ein LLM mit externem Wissensabruf | Dynamische Datasets und externes Wissen | Externe Wissensbasis oder Datenbank (z. B. Vektordatenbank) | Dynamisch aktualisierter Kontext, höhere Fehlerfreiheit | Verlängert den Prompt und die Inferenzberechnung | |
Passt ein vortrainiertes LLM an spezifische Datasets oder Fachgebiete an | Fach- oder Aufgabenspezialisierung | Tausende fachspezifische Beispiele oder Anleitungen | Granulare Kontrolle, hoher Spezialisierungsgrad | Erfordert gelabelte Daten und hohen Rechenaufwand | |
Training eines LLM von Grund auf | Individuelle Aufgaben oder fachspezifische Korpora | Große Datasets (Milliarden oder Billionen Tokens) | Maximale Kontrolle, maßgeschneidert für hochspezielle Anforderungen | Äußerst ressourcenintensiv |
Unabhängig von der gewählten Technik stellt der Aufbau einer gut strukturierten und modularisierten Lösung sicher, dass Unternehmen nach Bedarf iterieren und Anpassungen vornehmen können. Mehr über diesen Ansatz und weitere Informationen finden Sie im Big Book of MLOps.
Was bedeutet im Zusammenhang mit Large Language Models der Begriff „Prompt Engineering“?
Unter Prompt Engineering versteht man die Anpassung der Text-Prompts, die einem LLM gegeben werden, mit dem Ziel, korrektere oder relevantere Antworten zu erhalten. Nicht jedes LLM-Modell liefert die gleiche Qualität, da das Prompt Engineering modellspezifisch ist. Es gibt aber einige allgemeine Tipps, die bei einer Vielzahl von Modellen funktionieren:
- Verwenden Sie klare und prägnante Prompts, die beispielsweise eine Anweisung, ggf. einen Kontext, eine Benutzerabfrage oder -eingabe und eine Beschreibung des gewünschten Ausgabetyps oder -formats enthalten.
- Geben Sie in Ihrem Prompt ein paar Beispiele an, damit das LLM versteht, was Sie von ihm wollen (dies bezeichnet man als „Few-Shot Learning“).
- Sagen Sie dem Modell, wie es sich verhalten soll, z. B. dass es eingestehen soll, eine Frage nicht beantworten zu können.
- Weisen Sie das Modell an, Schritt für Schritt zu denken oder seine Beweggründe zu erklären.
- Wenn Ihr Prompt Benutzereingaben enthält, sollten Sie Techniken anwenden, die das Hacken von Prompts verhindern. Hierzu können Sie beispielsweise deutlich machen, welche Teile des Prompts Ihre Anweisungen und welche Benutzereingaben sind.
Was bedeutet im Zusammenhang mit Large Language Models der Begriff „Retrieval Augmented Generation“ (RAG)?
Retrieval Augmented Generation (RAG) ist ein Architekturkonzept, mit dem sich die Effizienz von LLM-Anwendungen (Large Language Model) durch Nutzung kundenspezifischer Daten verbessern lässt. Zu diesem Zweck werden Daten und/oder Dokumente, die für eine Frage oder Aufgabe relevant sind, abgerufen und als Kontext für das LLM bereitgestellt. RAG hat sich bei der Unterstützung von Chatbots und Q&A-Systemen, die aktuelle Informationen bereithalten oder auf fachspezifisches Wissen zugreifen müssen, als erfolgreich erwiesen.Weitere Informationen zu RAG finden Sie hier.
Was bedeutet der Begriff „Fine-Tuning“ im Zusammenhang mit Large Language Models?
Unter dem Begriff „Fine-Tuning“ versteht man den Prozess der Anpassung eines vortrainierten LLMs unter Verwendung eines vergleichsweise kleineren Datasets, das konkret auf ein einzelnes Fachgebiet oder eine Aufgabe zugeschnitten ist. Beim Fine-Tuning wird das Training für eine kurze Zeit fortgesetzt, wobei ggf. eine im Vergleich zum Gesamtmodell relativ kleine Anzahl von Gewichtungen angepasst wird.
Der Begriff „Fine-Tuning“ kann sich auf verschiedene Konzepte beziehen. Die beiden häufigsten sind nachfolgend definiert:
- Überwachtes Fine-Tuning von Anweisungen: Dieser Ansatz beinhaltet das Weitertraining eines vortrainierten LLM mit einem Dataset mit (in der Regel mehreren Tausend) Eingabe-Ausgabe-Trainingsbeispielen.
- Fortgesetztes Pre-Training: Diese Fine-Tuning-Methode stützt sich nicht auf Eingabe-/Ausgabebeispiele, sondern nutzt stattdessen fachgebietsspezifischen, unstrukturierten Text, um das bereits begonnene Pre-Training fortzusetzen (z. B. Vorhersage des nächsten Tokens oder maskierte Sprachmodellierung).
Was bedeutet es, ein Pre-Training eines Large Language Model durchzuführen?
Als Pre-Training eines LLM wird das Trainieren eines Sprachmodells mit einem großen Datenkorpus (z. B. Text, Code) bezeichnet. Das Pre-Training erfolgt von Grund auf, d. h. ohne vorheriges Wissen oder Gewichtungen aus einem bestehenden Modell. Dies steht im Gegensatz zum Fine-Tuning, bei dem ein bereits vortrainiertes Modell noch besser an eine bestimmte Aufgabe oder einen Datensatz angepasst wird. Das Ergebnis des vollständigen Pre-Trainings ist ein Basismodell, das entweder direkt verwendet oder für nachfolgende Aufgaben weiter verfeinert werden kann. Das Pre-Training ist in der Regel der umfangreichste und teuerste Trainingsabschnitt. Es wird normalerweise nicht vom nutzenden Unternehmen selbst erledigt.
Welche LLMs sind am verbreitetsten und wie unterscheiden sie sich?
Der Bereich der Large Language Models ist überlaufen und es stehen viele Optionen zur Auswahl. Grundsätzlich lassen sich LLMs in zwei Kategorien einteilen: proprietäre Dienste und Open-Source-Modelle.
Proprietäre Dienste
Das beliebteste LLM ist ChatGPT von OpenAI, dessen Veröffentlichung mit viel Getöse einherging. ChatGPT bietet eine benutzerfreundliche Suchoberfläche, auf der die Benutzer Prompts eingeben können und dann normalerweise schnell eine relevante Antwort erhalten. Entwickler können auf die ChatGPT-API zugreifen, um dieses LLM in eigene Anwendungen, Produkte oder Dienste zu integrieren. Weitere bekannte Dienste sind Google Bard und Claude von Anthropic.
Open-Source-Modelle
Eine andere Möglichkeit besteht darin, selbst ein LLM zu hosten. Hierzu wird in der Regel ein Modell verwendet, das quelloffen und für eine kommerzielle Nutzung verfügbar ist. Die Open-Source-Community hat leistungstechnisch schnell mit den proprietären Modellen gleichgezogen. Beliebte quelloffene LLM-Modelle sind LLaMa 2 von Meta und MPT von MosaicML (mittlerweile von Databricks übernommen).
Wie Sie die beste Wahl treffen
Die wichtigsten Überlegungen und Unterschiede in der Herangehensweise zwischen der Nutzung der API eines Drittanbieters mit geschlossenem Modell und dem Hosten eines eigenen quelloffenen (oder individuell angepassten) LLM sind Zukunftssicherheit, Kostenkontrolle und die Nutzung Ihrer Daten als Wettbewerbsvorteil. Proprietäre Modelle können veralten oder entfernt werden, wodurch Ihre bestehenden Pipelines und Vektorindizes zunichtegemacht werden. Dagegen bleiben Open-Source-Modelle für immer zugänglich. Ferner bieten quelloffene und feinabgestimmte Modelle mehr Auswahl und ermöglichen eine bessere Anpassung an Ihre Anwendung. So profitieren Sie von einem besseren Preis-Leistungs-Verhältnis. Wenn Sie ein künftiges Fine-Tuning Ihrer eigenen Modelle planen, können Sie die Daten Ihres Unternehmens als Wettbewerbsvorteil nutzen, um Modelle zu erstellen, die besser sind als die öffentlich verfügbaren. Schließlich können bei Nutzung proprietärer Modelle Governance-Bedenken entstehen, da solche „Blackbox-LLMs“ weniger Kontrolle über Trainingsverfahren und Gewichtungen bieten.
Das Hosten eines eigenen Open-Source-LLM ist arbeitsaufwendiger als die Nutzung proprietärer LLMs. Mit MLflow von Databricks wird es für Nutzer mit Python-Erfahrung einfacher, ein beliebiges Transformer-Modell auszuwählen und als Python-Objekt zu verwenden.
Wie wähle ich ein LLM auf Grundlage einer Anzahl von Bewertungskriterien aus?
Die Evaluierung von LLMs ist ein anspruchsvoller Bereich, der vor allem deswegen ständigen Veränderungen unterworfen ist, weil LLMs bei verschiedenen Aufgaben oft uneinheitliche Fähigkeiten aufweisen. Ein LLM mag bei einem Benchmark hervorragend abschneiden, aber bereits geringfügige Abweichungen beim Prompt oder dem zu lösenden Problem können die Leistung drastisch beeinflussen.
Nachfolgend aufgeführt sind einige bekannte Tools und Benchmarks, die zur Bewertung der Leistung von LLMs verwendet werden:
- MLflow
- Bietet eine Reihe von LLMOps-Tools für die Modellbewertung.
- Mosaic Model Gauntlet
- Ein aggregierter Bewertungsansatz, bei dem, statt auf eine einzige monolithische Metrik zu destillieren, die Modellkompetenz in sechs allgemeine Fachgebiete (siehe unten) unterteilt wird.
- Hugging Face führt Hunderttausende von Modellen von Anbietern offener LLMs zusammen
- BIG-bench (Beyond the Imitation Game-Benchmark)
- Ein dynamisches Benchmarking-Framework, das derzeit über 200 Aufgaben enthält. Der Schwerpunkt liegt dabei auf der Anpassung an künftige LLM-Funktionen.
- EleutherAI LM Evaluation Harness
- Ein ganzheitliches Framework, das Modelle anhand von mehr als 200 Aufgaben bewertet und dabei Evaluierungen wie BIG-bench und MMLU zusammenführt, um Reproduzierbarkeit und Vergleichbarkeit zu fördern.
Lesen Sie auch die Best Practices für die LLM-Auswertung von RAG-Anwendungen.
Wie operationalisiert man die Verwaltung von Large Language Models mithilfe von LLMOps?
Large Language Model Operations (LLMOps) ist eine Bezeichnung für Praktiken, Verfahren und Tools, die für das betriebliche Management von Large Language Models (LLMs) in Produktionsumgebungen eingesetzt werden.
LLMOps (Large Language Model Operations) gestattet die effiziente Implementierung, Kontrolle und Pflege von Large Language Models. Ähnlich wie traditionelles Machine Learning Ops (MLOps) erfordert LLMOps eine Zusammenarbeit von Data Scientists, DevOps Engineers und IT-Fachkräften. Ausführliche Informationen zu LLMOps finden Sie hier.
Wo finde ich weitere Informationen über Large Language Models?
Es gibt viele Ressourcen mit ausführlichen Informationen zu LLMs, beispielsweise die folgenden:
Weiterbildung
- LLMs: Foundation Models From the Ground Up (Schulung von EDX und Databricks): Kostenlose Schulung von Databricks, die sich den Details der Grundlagenmodelle in LLMs widmet
- LLMs: Application Through Production (Schulung von EDX und Databricks): Kostenlose Schulung von Databricks, die sich schwerpunktmäßig mit der Erstellung von LLM-Anwendungen unter Verwendung der neuesten und bekanntesten Frameworks befasst
E-Books
Technische Blogs
- Best Practices für die LLM-Auswertung von RAG-Anwendungen
- Mit MLflow AI Gateway und LLaMa 2 Apps für generative KI entwickeln (so erzielen Sie höhere Präzision durch Einsatz von Retrieval Augmented Generation (RAG) mit Ihren eigenen Daten)
- Bereitstellung Ihres LLM-Chatbots mit Retrieval Augmented Generation (RAG), llama2-70B (MosaicML Inferences) und Vector Search
- LLMOps: Alles was Sie zum Verwalten von LLMs wissen müssen
Die nächsten Schritte
- Setzen Sie sich mit Databricks in Verbindung, um einen Termin für eine Demo zu vereinbaren und mit einem Mitarbeiter über Ihre LLM-Projekte zu sprechen.
- Erfahren Sie mehr über die Databricks-Angebote für LLMs.
- Informieren Sie sich über den RAG-Anwendungsfall (Retrieval Augmented Generation) – die häufigste LLM-Architektur.