Direkt zum Hauptinhalt

Data Governance

DATABRICKS KOSTENLOS TESTEN

Was ist Data Governance?

Als Data Governance wird die Kontrolle bezeichnet, mit der sichergestellt werden soll, dass Daten Mehrwert schaffen und die Geschäftsstrategie unterstützen. Data Governance ist mehr als nur ein Tool oder ein Prozess: Sie richtet die datenbezogenen Anforderungen an der Geschäftsstrategie aus. Zu diesem Zweck wird ein Framework verwendet, das sich auf Personen, Prozesse, Technologien und Daten erstreckt und den Schwerpunkt auf eine Kultur zur Unterstützung der Geschäftsziele legt.

Worin besteht der geschäftliche Nutzen von Data Governance?

Da Datenmenge und -komplexität zunehmen, setzen sich immer mehr Unternehmen mit Data Governance auseinander, um die zentralen Geschäftsziele zu erreichen:

  • Konsistente und hohe Datenqualität als Grundlage für Analytics und Machine Learning
  • Beschleunigung der Time-to-Insight
  • Hilfe für Risikobewältigung und Einhaltung von Branchenbestimmungen wie HIPPA, FedRAMP, DSGVO oder CCPA
  • Datendemokratisierung, d. h. die Einführung von datengesteuerten Entscheidungen für alle Mitarbeiter eines Unternehmens
  • Kostenoptimierung, z. B. dadurch, dass Benutzer daran gehindert werden, große Cluster zu starten, sowie durch Schaffung von Leitplanken für die Nutzung teurer GPU-Instanzen

Wie sieht eine gute Data-Governance-Lösung aus?

Datengesteuerte Unternehmen bauen ihre Datenarchitekturen für Analytics in der Regel auf einem Lakehouse auf. Ein Data Lakehouse ist eine Architektur, die effizientes und sicheres Data Engineering, Machine Learning, Data Warehousing und Business Intelligence direkt für riesige, in Data Lakes gespeicherte Datenvolumina ermöglicht. Data Governance für ein Data Lakehouse bietet eine Reihe wesentlicher Funktionen:

  • Einheitlicher Katalog: Ein einheitlicher Katalog speichert alle Ihre Daten, ML-Modelle und Analyseartefakte sowie die Metadaten für jedes Datenobjekt. Zudem fügt der einheitliche Katalog Daten aus anderen Katalogen hinzu, z. B. aus einem vorhandenen Hive-Metaspeicher.
  • Einheitliche Steuerelemente für den Datenzugriff: Ein zentrales und einheitliches Berechtigungsmodell für alle Datenbestände und alle Clouds. Hierzu gehört auch die attributbasierte Zugriffssteuerung (Attribute-based Access Control, ABAC) für persönlich identifizierbare Informationen (PII).
  • Daten-Auditing: Der Datenzugriff wird zentral mit Warnmeldungen und Überwachungsfunktionen geprüft, um der Rechenschaftspflicht gerecht zu werden.
  • Datenqualitätsmanagement: Robustes Datenqualitätsmanagement mit integrierten Qualitätskontrollen, Tests, Überwachungs- und Durchsetzungsfunktionen, um sicherzustellen, dass korrekte und nutzbringende Daten für nachgelagerte BI-, Analyse- und Machine-Learning-Workloads bereitstehen.
  • Datenherkunft: Data Lineage sorgt für einen lückenlosen Einblick in den Datenfluss im Lakehouse – von der Quelle bis zum Konsumenten.
  • Datenerkennung: Die einfache Erkennung von Daten sorgt dafür, dass Data Scientists, Data Analysts und Data Engineers relevante Daten schnell finden und referenzieren können und die Time-to-Value verkürzen.
  • Data Sharing: Daten können cloud- und plattformübergreifend weitergegeben werden.

Worin besteht der Unterschied zwischen Datenverwaltung und Data Governance?

Die Datenverwaltung legt den Schwerpunkt auf Aktivitäten unter Einhaltung von Richtlinien, Prinzipien und Standards der Data Governance, um zuverlässige Daten zu liefern. Solche Aktivitäten sind in der Regel projektorientiert und zeitlich begrenzt. Data Governance dagegen wird als Programm zur Erzielung eines längerfristigen Nutzens betrachtet. Ein zentralisiertes Governance-Tool spielt eine Schlüsselrolle bei der Umsetzung der Governance.

Weitere Informationen zu Data Governance und Data Sharing auf Databricks

    Zurück zum Glossar