Data Mart
Was ist ein Data Mart?
Ein Data Mart ist eine kuratierte Datenbank mit einer Reihe von Tabellen, die darauf ausgelegt sind, die spezifischen Anforderungen eines einzelnen Datenteams, einer Community oder eines Geschäftsbereichs wie der Marketing- oder Engineering-Abteilung zu erfüllen. Er ist normalerweise kleiner und fokussierter als ein Data Warehouse und stellt in der Regel eine Teilmenge des größeren Data Warehouse des Unternehmens dar. Data Marts werden häufig für Analytics, Business Intelligence und Reporting verwendet. Data Marts waren der erste Evolutionsschritt in der physischen Realität des zentralen Data Warehouse und Data Lake. ACNielsen bot seinen Kunden Anfang der 1970er Jahre den ersten Data Mart an, um ihnen die Möglichkeit zu geben, Informationen digital zu speichern und ihre Verkaufsaktivitäten anzukurbeln.
Eigenschaften von Data Marts
- Typischerweise werden sie vom Datenteam des Unternehmens erstellt und verwaltet, können aber auch organisch von Fachkräften des Geschäftsbereichs erstellt und verwaltet werden.
- Die Data Stewards des Geschäftsbereichs verwalten den Data Mart und Endbenutzer haben lediglich Lesezugriff – sie können Abfragen durchführen und Tabellen anzeigen, diese jedoch nicht bearbeiten, um zu verhindern, dass weniger technisch versierte Benutzer kritische Geschäftsdaten versehentlich löschen oder ändern.
- Verwenden normalerweise ein dimensionales Modell und ein Sternschema.
- Enthalten eine kuratierte Teilmenge der Daten aus dem größeren Data Warehouse. Die Daten sind stark strukturiert und wurden vom Datenteam des Unternehmens bereinigt und angepasst, um das Verständnis und die Abfrage zu erleichtern.
- Sind für die individuellen Anforderungen eines bestimmten Geschäftsbereichs oder eines bestimmten Anwendungsfalls konzipiert.
- Benutzer fragen die Daten in der Regel mit SQL-Befehlen ab.
Arten von Data Marts: unabhängige Data Marts, abhängige Data Marts und hybride Data Marts
Gegenwärtig gibt es drei Grundtypen von Data Marts:
- Unabhängige Data Marts sind nicht Teil eines Data Warehouse und ähneln stark dem ursprünglichen Data Mart von ACNielsen. Sie konzentrieren sich in der Regel auf einen Geschäftsbereich oder ein Fachgebiet. Bei den Datenquellen kann es sich sowohl um externe als auch interne Quellen handeln. Daten werden anschließend übersetzt, verarbeitet und in den Data Mart geladen, wo sie gespeichert werden, bis sie benötigt werden.
- Abhängige Data Marts sind in ein bestehendes Data Warehouse integriert. Es wird ein Top-Down-Ansatz verwendet, der die Speicherung aller Daten an einem zentralen Ort unterstützt. Anschließend wird ein klar definierter Datenausschnitt für Forschungszwecke ausgewählt.
- Hybride Data Marts führen Daten aus einem Data Warehouse und „anderen“ Datenquellen zusammen. Das kann in einer Vielzahl von Situationen nützlich sein, einschließlich der Bereitstellung der Ad-hoc-Integration mit einer neuen Gruppe oder einem neuen Produkt, die/das einem Unternehmen hinzugefügt wurde. Hybride Data Marts eignen sich gut für Umgebungen mit mehreren Datenbanken und ermöglichen eine schnelle Implementierung. Diese Systeme erleichtern die Datenbereinigung und funktionieren gut mit kleineren datenzentrierten Anwendungen.
Vorteile von Data Marts
- Single Source of Truth – der Data Mart kann als Single Source of Truth für einen bestimmten Geschäftsbereich dienen, sodass alle auf der Grundlage derselben Fakten und Daten arbeiten.
- Einfachheit – Geschäftsanwender, die nach Daten suchen, können den kuratierten Data Mart besuchen, um einfachen Zugriff auf die Daten zu erhalten, die ihnen wichtig sind, anstatt sich durch das gesamte Data Warehouse zu wühlen und Tabellen zu verknüpfen, um die benötigten Daten zu erhalten.
Herausforderungen bei Data Marts
Data Warehouses eines Unternehmens werden mit der Absicht erstellt, alle Datenverwaltungsanforderungen zu erfüllen. Aber es ist immer nicht möglich, alle zufriedenzustellen, da verschiedene Geschäftsbereiche unterschiedliche Datenanforderungen und -ziele haben. Daher kopieren und erstellen Abteilungen ihre eigenen Data Marts (manchmal mit Unterstützung der IT-Abteilung des Unternehmens). Ziel dabei ist es, den Themenbereich eines bestimmten Data Warehouse zu erweitern, um ihre eigenen Bedürfnisse zu erfüllen. Infolgedessen können Data Marts – aus Unternehmenssicht – im Laufe der Zeit zu Datensilos und Schattenkopien von Daten werden, aber die Anforderungen der Abteilung gut erfüllen. Wenn viele Abteilungen so arbeiten, gibt es keine Single Source of Truth.
Wie Lakehouse die Herausforderungen bei Data Marts löst
Lakehouse löst die oben genannten Herausforderungen, indem es das gesamte Data Warehouse und die Data Marts des Unternehmens auf einer Plattform mit einheitlicher Sicherheit und Governance zusammenführt – und gleichzeitig verschiedenen Teams die Flexibilität bietet, ihre eigenen Sandboxes zu haben. Da jeder Data Mart oder jede augmentierte Kopie auf derselben Lakehouse-Plattform wie alle anderen erstellt wird, erkennt der Datenkatalog von Lakehouse das und stellt unter Berücksichtigung der Data-Governance-Regeln wie Tagging und Verwendung eines Datenwörterbuchs usw. sicher, dass die augmentiere Kopie erstellt und für alle sichtbar gemacht wird – das verhindert ähnliche Duplikate.
Ihren nächsten Data Mart mit Databricks SQL erstellen
Databricks SQL kostenlos testen