ETL und ELT
Eine ausführliche Betrachtung zweier Datenverarbeitungsansätze
Bei der Entscheidung zwischen ETL- und ELT-Modellen für Datenverarbeitungspipelines ist ein solides Verständnis beider Prinzipien erforderlich.
Richtig umgesetzt, können beide Ansätze Ihrem Unternehmen zu effizienteren Workflows verhelfen. Allerdings gibt es wichtige Unterschiede zwischen den beiden Ansätzen, die eine detaillierte Betrachtung verdienen.
Dieser Artikel befasst sich eingehend mit den Gemeinsamkeiten und den Unterschieden zwischen beiden Datenverarbeitungsansätzen. Ziel ist es, Ihnen die Entscheidung für die beste Lösung für Ihr Unternehmen zu erleichtern.
ETL und ELT: Ein Überblick
Der wichtigste Unterschied zwischen ELT und ETL liegt in der Abfolge der Vorgänge. Bei ETL (Extract, Transform, Load) werden Daten zunächst aus ihrer Quelle extrahiert, dann in einem Staging-Bereich in ein geeignetes Format überführt und schließlich an einen Speicherort übertragen, wo sie für Analysen zur Verfügung stehen.
Dieses Modell ist seit einigen Jahrzehnten ein Standard in der Datenverarbeitung. Dagegen ist ELT eine neuere Verarbeitungsoption, die die Vorteile moderner Datenspeichermöglichkeiten nutzt.
Bei ELT (Extract, Load, Transform) werden die Daten unmittelbar bei der Extraktion geladen, ohne zuerst transformiert zu werden. Die Transformation in ein nutzbares Format erfolgt dann nach Bedarf direkt aus dem verwendeten Repository heraus.
ELT funktioniert gut bei modernen Data-Lake-Architekturen, da diese die Speicherung strukturierter wie auch unstrukturierter Daten ermöglichen. So können Analysten eine breitere Palette von Datentypen für ihre Auswertungen verwenden, was ggf. die Nützlichkeit der Dateninterpretation verbessert.
Trotzdem bietet auch das ETL-Modell eine Reihe von Vorteilen. Es lohnt sich also, sich Zeit zu nehmen, um Gemeinsamkeiten wie auch Unterschiede zwischen ELT- und ETL-Verarbeitungsansätzen zu verstehen.
Ähnliche Themen erkunden
Das Big Book of Data Engineering
Bringen Sie Ihre Kompetenzen auf Kurs – mit diesem unverzichtbaren Leitfaden für das KI-Zeitalter.
Erste Schritte mit ETL
Informieren Sie sich über ETL-Pipelines – mit diesem technischen Leitfaden von O'Reilly.
Data Engineering jetzt erlernen
Sehen Sie sich vier Videos an und absolvieren Sie ein Quiz, um einen Badge zu erhalten.
Welche Gemeinsamkeiten und Unterschiede gibt es zwischen ETL und ELT?
Auch wenn sich ein Großteil der Diskussion zu diesem Thema um den Unterschied zwischen ELT und ETL dreht, sollte man nicht vergessen, dass beide durchaus einige Merkmale gemeinsam haben.
Benennen der Ähnlichkeiten
-
Datenverwaltung: Die wichtigste Gemeinsamkeit besteht darin, dass beide Prozesse letztendlich auf das gleiche Ziel ausgerichtet sind: eine effektive Datenverwaltung. ELT wie auch ETL bieten einen systematischen Ansatz, der gewährleistet, dass Ihre Daten hochwertig, konsistent und korrekt sind. Das primäre Ziel ist, dafür zu sorgen, dass Ihr Unternehmen umsetzbare Erkenntnisse aus den Daten gewinnen kann.
Aus der Sicht der beteiligten Prozesse ist auch erwähnenswert, dass die in beiden Modellen durchgeführte Datentransformation oft ähnlich verläuft, auch wenn der Kontext oder die Ausführungsreihenfolge der Transformation sich unterscheiden.
-
Automatisierung: Ein Vorteil, den sowohl ELT als auch ETL bieten, ist die Möglichkeit für Unternehmen, die Datenintegration zu automatisieren. Beide können eine automatische Zeitplanung implementieren, und der Zugriff auf die resultierenden Pipelines kann über eine API oder eine Befehlszeilenschnittstelle (CLI) erfolgen.
Der große Vorteil ist hier das Potenzial für erhebliche Effizienz- und Produktivitätssteigerungen, weil die Beschäftigten nicht mehr so viel Zeit mit sich wiederholenden Datenaufgaben verbringen müssen und sich stattdessen anderen Tätigkeiten widmen können.
-
Data Governance: In der modernen Geschäftswelt ist zuverlässige Data Governance unverzichtbar. Dabei geht es nicht nur um Effizienz, sondern es sind auch die potenziell weitreichenden Auswirkungen auf den Ruf der Marke und die Einhaltung rechtlicher Vorschriften zu berücksichtigen.
Obwohl die grundlegenden Unterschiede zwischen ETL und ELT zu geringfügig unterschiedlichen Ansätzen bei der Data Governance führen, sind beide Modelle durchaus geeignet, strikte Richtlinien zu unterstützen.
Diese Ähnlichkeiten sind nicht überraschend. Schließlich sind sie alle Ausdruck der wesentlichen Gründe für den Einsatz eines wirkungsvollen Datenverarbeitungsmodells. Wenn es jedoch um die Unterschiede zwischen ETL und ELT geht, wird die Sache etwas komplexer.
Wie sich die Unterschiede auf die Datenverarbeitung auswirken können
-
Verfügbarkeit: Ein entscheidender Aspekt, den Sie bei ETL berücksichtigen sollten, ist die Tatsache, dass Sie vorab wissen müssen, was Sie mit Ihren Daten zu tun beabsichtigen. Das liegt daran, dass die Daten transformiert werden müssen, bevor sie in das endgültige Repository geladen werden. Die Beantwortung von Fragen wie „Welche Daten werden benötigt (und welche verworfen)?“ oder „Wie werden die Analysten diese Daten verwenden?“ bestimmen, wie Sie Ihre Daten während der Verarbeitung aufbereiten und formatieren müssen.
Dagegen können Sie mit dem ELT-Modell strukturierte und unstrukturierte Daten speichern, ohne vorher Transformationsentscheidungen getroffen zu haben, da dieser Vorgang erst später stattfindet.
Auf die Datenverfügbarkeit hat dies ganz erhebliche Auswirkungen. Analysten, die erst nach dem ELT-Prozess eingreifen, können jederzeit auf alle gespeicherten Rohdaten zugreifen. Das geht bei ETL nicht, da es sich hierbei zwangsläufig um einen starreren Prozess handelt, bei dem die Menge der Rohdaten, die in den endgültigen Speicherbereich gelangen, begrenzt ist.
-
Flexibilität: Tatsächlich ist die Frage der Datenverfügbarkeit nur ein Aspekt der umfassenderen Flexibilität. Dass ETL ein linearer Prozess ist, bringt zwar etliche Vorteile mit sich, bedeutet aber auch, dass es im Vergleich zu ELT weniger flexibel ist. Sobald entschieden wurde, wie die Daten transformiert werden, können sie eigentlich nicht mehr geändert werden – zumindest nicht, ohne umfassende Änderungen an anderen Aspekten Ihres Gesamtsystems vorzunehmen.
Bei ELT können Sie Daten jederzeit in neuer Weise nutzen. Die Originaldaten lassen sich immer leicht auffinden und können je nachdem, wofür der Analyst sie verwenden möchte, mit einer Vielzahl von Methoden transformiert werden.
-
Zugänglichkeit: Es gibt Situationen, in denen Sie möglicherweise gar nicht viel mit den Daten anstellen müssen. Wenn Sie einfach nur unstrukturierte Daten in ihrem ursprünglichen Format bereitstellen möchten – wie z.B. eine Videodatei –, dann ist es bei Verwendung des ELT-Modells sehr einfach, darauf zuzugreifen und damit zu tun, was Sie wollen.
Bei einem traditionelleren ETL-Modell fällt die Datenaufsicht in der Regel in den Zuständigkeitsbereich von Spezialisten in Ihrer IT-Abteilung. Sie legen die Richtlinien fest, nach denen das System arbeitet, und kümmern sich um den gesamten Support.
Dies kann für die Aufrechterhaltung konsistenter Datenstandards von Vorteil sein, schränkt jedoch den Datenzugriff für die übrigen Mitarbeiter ein. Dadurch kann die Effizienz der Workflows mitunter beeinträchtigt werden.
-
Skalierbarkeit: Ein weiterer wesentlicher Unterschied zwischen ELT und ETL ist die Frage der Skalierbarkeit. Es liegt in der Natur der Sache, dass ein schnelles Skalieren des ETL-Prozesses nur äußerst schwierig zu bewerkstelligen ist. Das liegt daran, dass alle Rohdaten, die Ihnen anfangs vorliegen, transformiert werden müssen. Erst danach wählen Sie die Daten aus, die Sie behalten möchten, und speichern diese an ihrem endgültigen Bestimmungsort. Dieser Aspekt von ETL ist zwangsläufig ausgesprochen ressourcenintensiv.
Dagegen ist das ELT-Modell deutlich leichter anzupassen. Dass alle Rohdaten in das zentrale Repository geladen werden, sobald sie extrahiert wurden, hat zur Folge, dass Sie im Grunde genommen so viele Daten hinzufügen können, wie Sie wollen, ohne sie vorher in irgendeiner Weise aufbereiten zu müssen.
ELT-Systeme laufen in der Regel auch auf cloudbasierten Plattformen, die den Vorteil haben, sich schnell und unkompliziert skalieren zu lassen.
-
Tempo: Auf den ersten Blick erscheint es naheliegend, anzunehmen, dass ELT-Modelle einfach immer eine geeignetere und modernere Lösung als ETL sind. Allerdings gibt es bestimmte Aspekte der Datenverarbeitung, bei denen das Bild sehr viel nuancierter ist. Einer davon ist Geschwindigkeit.
Grundsätzlich haben Sie hier die Wahl: ETL ist zu Beginn langsamer, da alle Daten transformiert werden müssen, bevor sie in den Speicher geladen werden. Sobald das jedoch erledigt ist, ist die Nutzung der Daten äußerst schnell und einfach, da sie direkt zur Verfügung stehen, sobald ein Analyst sie benötigt.
Bei ELT profitieren Sie von einer sehr schnellen Ladezeit, da Sie die Daten lediglich extrahieren und in das Repository verschieben müssen. Allerdings sind die gespeicherten Daten sehr viel chaotischer als bei ETL. Wenn Sie die Daten dann endlich nutzen möchten, dauert es länger, sie bedarfsgerecht aufzubereiten.
-
Pflege: Bei der Frage der Datenpflege ist der entscheidende Aspekt, ob Sie Server vor Ort oder in der Cloud einsetzen. Wenn Sie Ihre eigene Infrastruktur betreiben, ist der Wartungsaufwand natürlich höher, ebenso wie die damit verbundenen Kosten.
Ältere ETL-Lösungen wurden auf einer physischen Infrastruktur vor Ort ausgeführt, weil dies schlichtweg die einzige Option war. Auch heute arbeiten immer noch viele auf diese Weise; allerdings hat das Aufkommen cloudbasierter Lösungen Alternativen erschlossen.
Dies gilt unabhängig davon, ob Sie sich für ein ETL- oder ELT-Modell entscheiden. Es stimmt zwar, dass der zusätzliche sekundäre Verarbeitungsserver, der in der Transformationsphase von ETL verwendet wird, zur Pflegekomplexität beiträgt, aber das gilt nur, wenn Sie die Infrastruktur selbst betreiben. Nutzen Sie dagegen einen cloudbasierten Dienst, so wird dies vom Anbieter erledigt.
-
Speicherung: Es ist offensichtlich, warum die Nutzung der Cloud zur Datenverarbeitung für so viele Unternehmen eine attraktive Perspektive ist. Es ist zwar durchaus möglich, eigene physische Server für Speicherzwecke zu betreiben, allerdings ist dies weniger realistisch, wenn Sie ein ELT-Verfahren nutzen möchten.
Der Hauptgrund dafür ist die inhärente Unvorhersehbarkeit des resultierenden Speicherbedarfs. ELT-Modelle ergänzen den modernen Daten-Stack und funktionieren am besten mit Architekturen im Stil von Data Lakes.
Wenn Sie jedoch all diese Rohdaten in vielen verschiedenen Formaten speichern, ist es weitaus schwieriger abzuschätzen, wie hoch Ihr Speicherplatzbedarf zu einem gegebenen Zeitpunkt sein wird. Bei ETL benötigen Sie nicht so viel Speicherplatz, da Sie außerdem genau wissen, welche Untergruppe der Ursprungsdaten im endgültigen Repository gespeichert werden wird.
-
Compliance: Moderne Unternehmen operieren in einer komplexen Welt voller Regeln und Vorschriften. Die Einhaltung von Compliance-Vorschriften in Bereichen wie der Datensicherheit ist ein zentraler Gesichtspunkt.
In diesem Bereich kann man mit Fug und Recht behaupten, dass ETL Ihnen im Vergleich zu ELT das Leben leichter machen kann. Es ist natürlich sehr viel einfacher, strikte Compliance-Standards zu gewährleisten, wenn Sie alle Ihre Daten transformieren, bevor Sie sie speichern.
Bei ELT-Lösungen müssen Sie die Daten speichern, bevor Sie die Möglichkeit haben, sensible Informationen zu entfernen. Wenn Sie nicht aufpassen, kann dies zu Problemen bei der Einhaltung von Vorschriften wie HIPAA und DSGVO führen – auch und gerade im Zusammenhang mit der Speicherung von Daten bei Cloud-Diensten, deren Server sich möglicherweise im Ausland befinden.
Wie man erkennt, wann man ETL und wann man ELT verwenden sollte
Vielleicht fragen Sie sich immer noch, ob nun ETL oder ELT besser ist. Tatsächlich kann man nicht allgemein sagen, dass ELT besser ist als ETL – oder umgekehrt. Die richtige Wahl hängt von verschiedenen Faktoren ab. Exemplarisch seien die vorhandene Infrastruktur sowie die Verarbeitungsgeschwindigkeit und Compliance-Anforderungen genannt.
Die Entscheidung, wann Sie ELT und wann ETL einsetzen, hängt von den Prioritäten Ihres Unternehmens ab. Hier sind einige Gesichtspunkte, die Sie ggf. berücksichtigen müssen:
-
Datensynchronisierung: Wenn Ihr Unternehmen Daten aus vielen verschiedenen Quellen zu einem einheitlichen, strukturierten Format zusammenführen muss, ist ETL eine gute Wahl, da Sie damit sicherstellen, dass die Daten vor dem Speichern aufbereitet werden.
-
Upgrades von Altlasten: ETL ist ebenfalls eine gute Entscheidung, wenn Sie Ihre Daten aus Altsystemen migrieren und dabei sicherstellen müssen, dass sie für Ihr neues System konsistent sind.
-
Compliance: Wie bereits erwähnt, erleichtert das ETL-Modell die Standardisierung der Einhaltung von Datenschutzbestimmungen erheblich. Wenn Ihr Unternehmen also in einem Bereich tätig ist, in dem besonders sensible Daten verarbeitet werden – beispielsweise im Gesundheits- oder Finanzwesen –, dann ist ETL möglicherweise die bessere Option.
-
Datenvolumen: Ist Ihr Unternehmen hingegen auf die regelmäßige Verarbeitung großer Datenmengen (wie z. B. Kundentransaktionen) angewiesen, dann wäre ELT aufgrund seiner Flexibilität wahrscheinlich eine gute Lösung.
-
Zugriffsgeschwindigkeit: Ähnlich verhält es sich, wenn Ihr Geschäftsmodell auf der Verarbeitung von Daten beruht, die in Echtzeit erzeugt und genutzt werden. In diesem Fall könnte das Fehlen unnötiger Verzögerungen beim Zugriff auf die von ELT bereitgestellten Daten der ausschlaggebende Faktor sein.
Diese Liste mit Beispielen für ETL und ELT ist eine stark vereinfachende Darstellung der Möglichkeiten. Trotzdem hoffen wir, dass sie Ihnen als Anhaltspunkt dienen kann. Auf der Databricks Platform können Sie wahlweise ELT oder ETL implementieren. Sie können sogar hybride Optionen realisieren, wenn Sie eine maßgeschneiderte Lösung benötigen.
Verwendung von ETL- und ELT-Tools mit Databricks
Wenn Sie eine ETL-Lösung verwenden möchten, bietet Databricks Delta Live Tables eine Reihe von Vorteilen gegenüber ETL-Systemen, die mit einer herkömmlichen Data-Warehouse-Architektur eingesetzt werden.
Dieses Produkt wurde zur Unterstützung von latenzarmem Streaming-ETL entwickelt und bietet Ihnen Funktionen für die automatische Orchestrierung des Datenflusses, Datenqualitätsprüfung, Fehlerbehandlung und Versionskontrolle. Zwar sind die Standardeinstellungen für die verschiedenen Optionen clever gewählt, aber Ihre Spark-Fachleute können die Lösung auch bequem selbst konfigurieren.
Alternativ dazu fungiert das Orchestrierungs-Tool Databricks Workflows als Managed Service, der vollständig in die Databricks Data Intelligence Platform integriert ist. Es handelt sich hierbei um eine äußerst flexible Lösung, die sich gleichermaßen für den Aufbau von ETL- wie auch ELT-Pipelines eignet.
Damit haben Sie das Heft in der Hand, denn Sie können mit nur wenigen Klicks maßgeschneiderte Arbeitsabläufe definieren und haben gleichzeitig einen unübertroffenen Einblick in aktive Tasks. Außerdem profitieren Sie von erstklassigen Monitoring-Tools. Hierzu gehört auch eine umgehende Fehlerbenachrichtigung, die es Ihnen ermöglicht, Probleme zu beheben, bevor sie sich ausweiten.
All dies ist möglich dank der innovativen Databricks Platform, die das Data-Engineering-Konzept grundlegend verändert hat. Sie setzt auf einer Lakehouse-Architektur auf, die die besten Elemente von Data Lakes und Data Warehouses kombiniert, und stellt so eine kostengünstige Möglichkeit dar, Datensilos ein für alle Mal zu beseitigen und Ihr Unternehmen bei der Nutzung von Daten zu unterstützen, um den erstklassigen Service zu liefern, den Ihre Kunden verdienen.