Direkt zum Hauptinhalt

Data Warehouse

DATABRICKS KOSTENLOS TESTEN

Was ist ein Data Warehouse?

Ein Data Warehouse ist ein Datenverwaltungssystem, das aktuelle und historische Daten aus verschiedenen Quellen in einer unternehmensgerechten Weise speichert, um Einblicke und Berichte zu erleichtern. Data Warehouses kommen in der Regel in den Bereichen Business Intelligence (BI), Berichterstattung und Datenanalyse zum Einsatz.

Data Warehouses ermöglichen schnelle und einfache Analysen von Unternehmensdaten, die aus operativen Systemen wie Kassensystemen, Bestandsverwaltungssystemen oder Marketing- und Vertriebsdatenbanken importiert werden. Die Daten durchlaufen möglicherweise einen operativen Datenspeicher und müssen bereinigt werden, um die Datenqualität sicherzustellen, ehe sie im Data Warehouse für Berichte verwendet werden können.

Für welche Zwecke werden Data Warehouses verwendet?

Data Warehouses werden in den Bereichen BI, Berichterstattung und Datenanalyse eingesetzt, um Daten aus operativen Datenbanken zu extrahieren und zusammenzufassen. Informationen, die nur schwer direkt aus Transaktionsdatenbanken bezogen werden können, lassen sich über Data Warehouses abrufen. Ein Beispiel: Das Management möchte die Gesamteinnahmen ermitteln, die jeder Verkäufer monatlich für jede Produktkategorie erzielt. Diese Daten werden in Transaktionsdatenbanken vielleicht nicht erfasst, wohl aber in einem Data Warehouse.

ETL und ELT für das Data Warehouse

ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform) stellen zwei verschiedene Arten der Datentransformation dar. Data Engineers setzen häufig auf ETL (Extract Transform Load), um Daten aus verschiedenen Datenquellen zu extrahieren und in das Data Warehouse zu verschieben. Dort lassen sich die Daten problemlos bereinigen und strukturieren. ELT hingegen lädt die Daten zunächst in ihrem ursprünglichen Format in das Warehouse und bereinigt und strukturiert sie im Laufe der Verarbeitung.

ETL erfolgt in der Regel eher zentral über Data-Engineering-Teams im Unternehmen, damit beim Bereinigen und Anpassen von Daten unternehmensweite Regeln beachtet werden. ELT impliziert, dass Transformationen zu einem späteren Zeitpunkt vorgenommen werden, die meist eher auf ein Projekt oder ein Unternehmensteam zugeschnitten sind, um Self-Service-Analysen zu ermöglichen.

Transaktionsverarbeitung (OLTP) vs. analytische Verarbeitung (OLAP)

Ein OLTP-System (Online Transaction Processing) erfasst und verwaltet Transaktionsdaten in einer Datenbank. Transaktionen umfassen einzelne Datenbankeinträge, die aus mehreren Feldern oder Spalten bestehen. OLTP-Datenbanken werden häufig in Anwendungen wie Onlinebanking, ERP-Systemen oder der Bestandsverwaltung eingesetzt und ermöglichen eine schnelle Aktualisierung von Daten auf Zeilenebene, die nahezu sofort verarbeitet werden.

Ein OLAP--System (Online Analytical Processing) wendet komplexe Abfragen auf große Mengen historischer Daten an, die aus OLTP-Datenbanken und anderen Quellen aggregiert wurden, um Data-Mining-, Analyse- und Business-Intelligence-Projekte durchzuführen. Bei Data Warehouses handelt es sich um OLAP-Systeme. Mit OLAP-Datenbanken und Data Warehouses können Analysten und Entscheidungsträger benutzerdefinierte Berichtstools einsetzen, um aus den Daten Informationen zu gewinnen und Maßnahmen abzuleiten. Abfragefehler in einer OLAP-Datenbank unterbrechen oder verzögern die Transaktionsverarbeitung für Kunden nicht, können jedoch die Genauigkeit der Business-Intelligence-Analysen verzögern oder beeinträchtigen.

Data Lake vs. Data Warehouse

Worin besteht der Unterschied zwischen einem Data Lake und einem Data Warehouse?

Bei einem Data Lake und einem Data Warehouse handelt es sich um zwei unterschiedliche Ansätze zur Verwaltung und Speicherung von Daten. 

Ein Data Lake ist ein unstrukturiertes oder halbstrukturiertes Daten-Repository, das die Speicherung großer Mengen von Rohdaten in ihrem ursprünglichen Format ermöglicht. Data Lakes sind so konzipiert, dass sie alle Arten von Daten – strukturierte, halbstrukturierte oder unstrukturierte – ohne vordefiniertes Schema aufnehmen und speichern können. Daten werden häufig in ihrem ursprünglichen Format gespeichert und nicht bereinigt, transformiert oder integriert, was das Speichern und Zugreifen auf große Datenmengen erleichtert.

Bei einem Data Warehouse hingegen handelt es sich um ein strukturiertes Repository, in dem Daten aus verschiedenen Quellen gut organisiert gespeichert werden. Ziel ist es, eine Single Source of Truth für Business Intelligence und Analysen bereitzustellen. Die Daten werden bereinigt, umgewandelt und in ein Schema integriert, das für Abfragen und Analysen optimiert ist.

Worin besteht der Unterschied zwischen einem Data Lake, einem Data Warehouse und einem Data Lakehouse?

Ein Data Lakehouse ist ein hybrider Ansatz, der das Beste aus beiden Welten kombiniert. Es handelt sich um eine moderne Datenarchitektur, die die Funktionen eines Data Warehouse und die eines Data Lake auf einer einheitlichen Plattform vereint. Es ermöglicht die Speicherung von Rohdaten in ihrem ursprünglichen Format wie bei einem Data Lake und bietet die gleichen Funktionen zur Datenverarbeitung und -analyse wie ein Data Warehouse.

Zusammenfassend lässt sich sagen, dass der wesentliche Unterschied zwischen einem Data Lake, einem Data Warehouse und einem Data Lakehouse in der Art und Weise liegt, wie die Daten verwaltet und gespeichert werden. Ein Data Warehouse speichert strukturierte Daten in einem vordefinierten Schema, ein Data Lake speichert Rohdaten in ihrem ursprünglichen Format, und ein Data Lakehouse ist ein hybrider Ansatz, der die Funktionen beider Systeme kombiniert.

 Data Lake

Data Lakehouse

Data Warehouse

Datentypen

Alle Typen: Strukturierte Daten, halbstrukturierte Daten, unstrukturierte (Roh-)Daten

Alle Typen: Strukturierte Daten, halbstrukturierte Daten, unstrukturierte (Roh-)Daten

Nur strukturierte Daten

Kosten

$$€€€

Format

Offenes Format

Offenes Format

Geschlossenes, proprietäres Format

Skalierbarkeit

Skalierbar, um Datenmengen jeglicher Größenordnung zu geringen Kosten zu speichern, unabhängig vom Datentyp

Skalierbar, um Datenmengen jeglicher Größenordnung zu geringen Kosten zu speichern, unabhängig vom Datentyp

Eine Skalierung nach oben wird aufgrund der Anbieterkosten exponentiell teurer

Zielgruppe

Begrenzt: Data Scientists

Vereinheitlicht: Datenanalysten, Data Scientists, Machine Learning Engineers

Begrenzt: Datenanalysten

Zuverlässigkeit

Geringe Qualität, Datensumpf

Hochwertige und zuverlässige Daten

Hochwertige und zuverlässige Daten

Anwenderfreundlichkeit

Problematisch: Die Analyse großer Mengen von Rohdaten kann sich ohne Tools zur Organisation und Katalogisierung der Daten schwierig gestalten

Einfach: Bietet die Einfachheit und Struktur eines Data Warehouse mit den breiter angelegten Anwendungsfällen eines Data Lake

Einfach: Die Struktur eines Data Warehouse ermöglicht es Benutzern, schnell und problemlos auf Daten für Berichte und Analysen zuzugreifen

Performance

Mangelhaft

HochHoch

Kann ein Data Lake ein Data Warehouse ersetzen?

Bei einem Data Lake und einem Data Warehouse handelt es sich um zwei unterschiedliche Ansätze zur Verwaltung und Speicherung von Daten. Beide Ansätze haben Vor- und Nachteile. Zwar kann ein Data Lake ein Data Warehouse ergänzen, indem er Rohdaten für erweiterte Analysen bereitstellt, doch kann er ein Data Warehouse im herkömmlichen Sinne nicht vollständig ersetzen. Vielmehr können sich ein Data Lake und ein Data Warehouse gegenseitig ergänzen. Dabei dient der Data Lake als Quelle von Rohdaten für erweiterte Analysen, während das Data Warehouse eine strukturierte, organisierte und zuverlässige Quelle von Unternehmensdaten für Berichte und Analysen bietet.

Kann ein Data Lakehouse ein Data Warehouse ersetzen? 

Bei einem Data Lakehouse handelt es sich dagegen um eine moderne Datenarchitektur, die die Vorteile eines Data Warehouse und eines Data Lake in einer einheitlichen Plattform vereint. Ein Data Lakehouse kann als Ersatz für ein herkömmliches Data Warehouse dienen, da es sowohl die Funktionen eines Data Lake als auch eines Data Warehouse auf einer zentralen Plattform bietet.

Ein Data Lakehouse ermöglicht die Speicherung von Rohdaten in ihrem ursprünglichen Format wie bei einem Data Lake und bietet zugleich Funktionen zur Verarbeitung und Analyse von Daten wie ein Data Warehouse. Darüber hinaus bietet es einen Schema-on-Read-Ansatz, der eine flexible Verarbeitung und Abfrage von Daten ermöglicht. Die Kombination aus einem Data Lake und einem Data Warehouse auf einer zentralen Plattform sorgt für mehr Flexibilität, Skalierbarkeit und Kosteneffizienz.

Wie unterscheidet sich einen Data Lake von einer Datenbank?

Eine Datenbank ist ein strukturiertes Repository, das Daten in einem vordefinierten Schema speichert. Sie ist für die Transaktionsverarbeitung und Geschäftsanwendungen optimiert. Datenbanken sind für die Verarbeitung strukturierter Daten konzipiert und bieten schnelle, effiziente und zuverlässige Funktionen für Abfragen und Datenverarbeitung. Sie basieren auf einem Schema-on-Write-Ansatz. Das bedeutet, dass Daten strukturiert und definiert werden müssen, ehe sie in der Datenbank gespeichert werden können. Datenbanken werden häufig in Anwendungen in den Bereichen E-Commerce, Bankwesen und Bestandsverwaltung eingesetzt, wo die Transaktionsverarbeitung ein entscheidendes Kriterium im Hinblick auf den Geschäftsbetrieb darstellt.

Ein Data Lake ist ein unstrukturiertes oder halbstrukturiertes Daten-Repository,das alle Arten von Daten in ihrem ursprünglichen Format – strukturiert, halbstrukturiert oder unstrukturiert - aufnehmen und speichern kann, ohne dass zuvor ein Schema festgelegt wurde. Die in ihrem nativen Format gespeicherten Daten werden häufig nicht bereinigt, umgewandelt oder integriert, wodurch das Speichern großer Datenmengen und der Zugriff darauf erleichtert werden. Data Lakes werden häufig für fortgeschrittene Analysen und Anwendungen im Bereich Machine Learning eingesetzt, bei denen die Exploration und Erkennung von Daten eine entscheidende Rolle spielt, wenn es darum geht, Erkenntnisse zu gewinnen und Vorhersagemodelle zu erstellen.

Worin besteht der Unterschied zwischen einem Data Lake und ETL?

Ein Data Lake und ETL (Extract, Transform, Load) stellen zwei unterschiedliche Konzepte im Zusammenhang mit der Verwaltung und Integration von Daten dar. Der grundlegende Unterschied besteht darin, dass ein Data Lake ein zentralisiertes Repository für die Speicherung und Verarbeitung großer Mengen von Rohdaten ist, während ETL ein Prozess zum Extrahieren, Transformieren und Laden strukturierter Daten aus verschiedenen Quellen in ein Zieldaten-Repository darstellt. Ein Data Lake ermöglicht die Speicherung und Verarbeitung aller Arten von Daten ohne ein vorab definiertes Schema. ETL hingegen wird in der Regel für die Integration strukturierter Daten in ein vordefiniertes Schema verwendet.

Vorteile von Data Warehouses

  • Konsolidierte Daten, die aus zahlreichen verschiedenen Quellen stammen. Dient als zentraler Zugangspunkt für alle Daten, sodass Benutzer keine Verbindung zu Dutzenden oder gar Hunderten von einzelnen Datenspeichern herstellen müssen.
  • Data Intelligence für historische Daten. Ein Data Warehouse integriert Daten aus zahlreichen Quellen, um historische Trends aufzuzeigen.
  • Von den Transaktionsdatenbanken entkoppelte Analyseverarbeitung, um die Performance beider Systeme zu verbessern.
  • Qualität, Konsistenz und Genauigkeit von Daten. Data Warehouses verwenden eine standardisierte semantische Struktur für Daten, einschließlich konsistenter Bezeichnungen, Codes für verschiedene Produkttypen, Sprachen, Währungen und so weiter.

Herausforderungen bei Data Warehouses

  • Keine Unterstützung unstrukturierter Daten wie Bilder, Text, IoT-Daten oder Messaging-Frameworks wie HL7, JSON und XML. Herkömmliche Data Warehouses können nur saubere und in hohem Maße strukturierte Daten speichern. Nach Einschätzung des US-Marktforschungsunternehmens Gartner handelt es sich jedoch bei bis zu 80 % der Daten eines Unternehmens um unstrukturierte Daten. Unternehmen, die ihre unstrukturierten Daten nutzen möchten, um die Vorteile von KI für sich zu erschließen, stehen vor der Herausforderung, andere Lösungen zu finden.
  • Keine Unterstützung von KI und Machine Learning. Data Warehouses wurden speziell für gängige DWH-Workloads wie historische Berichte, BI und Abfragen entwickelt und optimiert. Sie wurden jedoch nicht dafür konzipiert, Workloads für Machine Learning zu unterstützen.
  • Reine SQL-Lösung. DWHs bieten in der Regel keine Unterstützung für Python oder R, die bevorzugten Sprachen von App-Entwicklern, Data Scientists und Machine Learning Engineers.
  • Duplizierte Daten. Zahlreiche Unternehmen verfügen neben einem Data Lake auch über Data Warehouses und themenspezifische (oder abteilungsspezifische) Data Marts. Dies führt zu duplizierten Daten, einer Fülle von redundantem ETL und dem Fehlen einer Single Source of Truth.
  • Schwer zu synchronisieren. Zwei Kopien der Daten zwischen dem Lake und dem Warehouse zu synchronisieren, geht mit einer zusätzlichen Komplexität und Fragilität einher, die schwer zu verwalten ist. Datenabweichungen können zu inkonsistenten Berichten und fehlerhaften Analysen führen.
  • Geschlossene, proprietäre Formate erhöhen die Anbieterbindung. Die meisten Data Warehouses von Unternehmen verwenden ihr eigenes, proprietäres Datenformat anstelle von Formaten, die auf Open Source und offenen Standards basieren. Dies erhöht die Herstellerbindung und macht es schwierig oder gar unmöglich, Ihre Daten mit anderen Tools zu analysieren. Auch die Migration Ihrer Daten wird dadurch erschwert.
  • Kostenintensiv. Kommerzielle Data Warehouses berechnen Ihnen die Kosten für die Speicherung Ihrer Daten sowie für deren Analyse. Somit sind die Kosten für Speicherung und Datenverarbeitung nach wie vor eng gekoppelt. Die Entkopplung von Rechenleistung und Speicherplatz in einem Lakehouse bedeutet, dass Sie beide Bereiche unabhängig voneinander skalieren können, je nach Bedarf.

So lösen Lakehouses diese Herausforderungen

So lösen Lakehouses diese Herausforderungen

Lakehouse-Architekturen lösen genau diese Herausforderungen, um Ihnen das Beste aus Data Lakes und Data Warehouses bereitzustellen. Überzeugen Sie sich selbst vom Wert einer offenen Lakehouse-Architektur auf Databricks.

Databricks Lakehouse für Data Warehousing

Databricks Lakehouse-Plattformarchitektur

Unternehmen, die ein erfolgreiches Lakehouse aufbauen möchten, setzen auf Delta Lake. Dabei handelt es sich um eine Datenmanagement- und Governance-Schicht mit einem offenen Open-Source-Format, die das Beste aus Data Lakes und Data Warehouses kombiniert. Die Databricks Lakehouse-Plattform nutzt Delta Lake, um Ihnen folgende Vorteile zu bieten:

  • Rekordverdächtige Data-Warehouse-Performance zu kostengünstigen Data-Lake-Konditionen
  • Serverlose SQL-Berechnungen, die die Verwaltung von Infrastruktur überflüssig machen
  • Nahtlose Integration mit modernen Data Stacks, wie dbt, Tableau, PowerBI und Fivetran, um Daten direkt aufzunehmen, abzufragen und zu transformieren
  • Erstklassige SQL-Entwicklung für Datenexperten in Ihrem Unternehmen dank ANSI-SQL-Unterstützung
  • Präzise Verwaltung mit Datenherkunft, Tags auf Tabellen-/Zeilenebene, rollenbasierter Zugriffssteuerung und mehr

Zusätzliche Ressourcen

Zurück zum Glossar