Direkt zum Hauptinhalt

Datensatz

Was ist ein Dataset?

Ein Dataset ist eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gemeinsam gespeichert werden. Die Daten in einem Dataset sind in der Regel in irgendeiner Weise aufeinander bezogen und stammen aus einer einzigen Quelle oder sind für ein einzelnes bestimmtes Projekt vorgesehen. Beispielsweise kann ein Dataset eine Auswahl von Geschäftsdaten enthalten (Verkaufszahlen, Kundenkontaktinformationen, Transaktionen usw.). Es kann dabei viele verschiedene Datentypen enthalten – von numerischen Werten über Texte und Bilder bis hin zu Audioaufnahmen. Auf die Daten in einem Dataset kann in der Regel einzeln oder in Kombination zugegriffen werden, sie können aber auch als Einheit verwaltet werden.

Datasets sind ein grundlegendes Tool für Data Analytics, Datenanalyse und maschinelles Lernen (ML). Sie stellen die Daten bereit, aus denen Analysts Erkenntnisse und Trends ableiten. Für ML sind sie unverzichtbar, denn die Auswahl des geeigneten Datasets für ein ML-Projekt ist einer der wichtigsten ersten Schritte für das erfolgreiche Trainieren und Implementieren eines ML-Modells.

Ähnliche Themen erkunden

Das Big Book der Machine-Learning-Anwendungsfälle. 2. Auflage

Ihr kompletter Leitfaden für den Einsatz von maschinellem Lernen. Mit Anwendungsfällen, Codebeispielen und Notebooks.

E-Book herunterladen

Erste Schritte mit ETL

Lernen Sie mehr über ETL-Pipelines – mit dieser Vorschau des O'Reilly-Leitfadens.

JETZT HERUNTERLADEN

Grundlagen zur generativen KI

Nehmen Sie an diesem On-Demand-Training teil, um Ihr Wissen über generative KI, einschließlich LLMs, zu vertiefen.

Jetzt loslegen

Heißt es Dataset, Datenbestand, Datensatz …?

Eine Sammlung von Daten wird allgemein als Dataset, Datensatz oder Datenbestand bezeichnet, wobei es durchaus gewisse Unterschiede gibt. Bei Databricks verwenden wir Dataset im Kontext von Data Analytics.

Dataset und Datenbanken im Vergleich

Auch die Begriffe Dataset und Datenbank werden oft verwechselt. Zwar sind beide Konzepte miteinander verwandt und werden zur Beschreibung der Organisation und Verwaltung von Daten verwendet, doch unterscheiden sie sich in einigen wesentlichen Punkten:

Wie im ersten Abschnitt definiert, ist ein Dataset eine Sammlung von Daten, die zur Analyse und Modellerstellung verwendet werden und üblicherweise in einem strukturierten Format organisiert sind. Dieses strukturierte Format kann beispielsweise eine Excel-Tabelle, eine CSV-Datei, eine JSON-Datei, aber auch ein anderes Format sein. Die Daten in einem Dataset können auf verschiedene Weise organisiert sein und einer Vielzahl von Quellen entstammen, z. B. Kundenumfragen, Experimenten oder einer bestehenden Datenbank. Datasets können für viele Zwecke verwendet werden, z. B. zum Trainieren und Testen von Machine-Learning-Modellen, zur Datenvisualisierung, für Forschungszwecke oder statistische Analysen. Auch können Datasets öffentlich oder privat geteilt werden. Ein Dataset ist im Vergleich zu einer Datenbank in der Regel kleiner.

Eine Datenbank ist für die langfristige elektronische Speicherung und Verwaltung großer Mengen organisierter Daten konzipiert, sodass diese Daten leicht abgerufen, bearbeitet und aktualisiert werden können. Mit anderen Worten: Eine Datenbank ist eine organisierte Sammlung von Daten, die in mehreren Datasets gespeichert sind. Es gibt viele verschiedene Arten von Datenbanken, unter anderem relationale Datenbanken, Dokumentdatenbanken und Schlüssel-Wert-Datenbanken.

Was sind Beispiele für Datasets?

Ein Dataset kann Zahlen, Texte, Bilder, Audioaufnahmen oder sogar einfache Objektbeschreibungen enthalten. Es kann in verschiedenen Formen organisiert sein, z. B. als Tabellen oder Dateien. Beispiele für Datasets:

  • Ein Dataset, das eine Auflistung aller Immobilienverkäufe in einer bestimmten Region während eines bestimmten Zeitraums enthält
  • Ein Dataset, das Informationen über alle bekannten Meteoritenlandungen enthält
  • Ein Dataset zur regionalen Luftqualität in einem bestimmten Gebiet während eines bestimmten Zeitraums
  • Ein Dataset, das die Anwesenheitsquote von Schülern an Grund- und weiterführenden Schulen nach Schülergruppen und Bezirken für das Schuljahr 2021/22 enthält

Öffentliche Datasets

Öffentliche Datasets sind öffentliche Daten zu einem bestimmten Thema, die für die Öffentlichkeit zugänglich sind. Sie sind besonders wertvoll für Data Scientists, da sie in der Regel kostenlos sowie leicht zugänglich und herunterladbar sind. Solche Daten können zum Trainieren von ML-Modellen verwendet werden.

Die US-amerikanische National Oceanic and Atmospheric Administration (NOAA) beispielsweise stellt alle möglichen Daten zur Verfügung, etwa zur Wasserqualität oder zum Klimawandel. ADS-B-Daten (Automatic Dependence Surveillance) zeigen die Bewegungen von Verkehrsflugzeugen in Echtzeit an, und die U.S. General Services Administration bietet auf data.gov mehr als 200.000 Datasets aus Hunderten von Kategorien an.

Auch Databricks bietet eine Reihe von Beispiel-Datasets, die von Dritten bereitgestellt werden und im Databricks Workspace verwendet werden können. Die Verwendung dieser Datasets in Kombination mit KI und maschinellem Lernen auf Databricks ermöglicht ML-Teams die Aufbereitung und Verarbeitung von Daten. Dadurch wird die teamübergreifende Zusammenarbeit rationalisiert und der gesamte ML-Lebenszyklus vom Experiment bis zur Produktion standardisiert – auch für generative KI und Large Language Models.

Verwenden von Datasets

Es gibt verschiedene Möglichkeiten, Datasets zu nutzen. Analysten verwenden sie, um Daten für Business-Intelligence-Zwecke zu untersuchen und zu visualisieren. Data Scientists trainieren mit Datasets ML-Modelle. Doch bevor Datasets genutzt werden können, müssen die Daten mithilfe von Data-Engineering-Prozessen wie ETL (Extract, Transform, Load) in einen Data Lake oder ein Lakehouse überführt werden. Mit ETL können Engineers Daten aus verschiedenen Quellen extrahieren, sie in eine verarbeitungsfähige und belastbare Ressource umwandeln und sie in die Systeme laden, auf die dann die Endbenutzer zugreifen, um Geschäftsprobleme zu lösen.

Verwalten, Katalogisieren und Absichern von Datasets

Damit Datasets verwendet werden können, müssen sie katalogisiert, verwaltet und mit einem Governance-System sicher gespeichert werden. Die Implementierung einer wirksamen Data-Governance-Strategie ermöglicht es Unternehmen, Daten für eine datengesteuerte Entscheidungsfindung bereitzustellen, sie gleichzeitig vor unbefugtem Zugriff zu schützen und die Einhaltung gesetzlicher Vorschriften zu gewährleisten.

Um den Herausforderungen der Data Governance zu begegnen, hat Databricks Unity Catalog entwickelt. Unity Catalog ist eine integrierte Governance-Lösung für Daten und KI-Assets im Lakehouse. Damit können Unternehmen nahtlos strukturierte und unstrukturierte Daten, Machine-Learning-Modelle, Notebooks, Dashboards und Dateien in jeder Cloud und auf jeder Plattform verwalten. Data Scientists, Analysts und Engineers können mit Unity Catalog auf sichere Weise vertrauenswürdige Daten und KI-Assets entkunden, darauf zugreifen und sie gemeinsam bearbeiten.

Teilen von Datasets

Die meisten Data Scientists möchten Datasets nicht nur erfassen und analysieren, sondern sie auch mit anderen teilen. Dieses sogenannte Data Sharing fördert die Vernetzung und Zusammenarbeit und damit potenziell wichtige neue Erkenntnisse. Delta Sharing ist ein in Unity Catalog integriertes Open-Source-Tool, mit dem Data Scientists und Analysts auf einfache Weise Daten und KI-Assets cloud-, regions- und plattformübergreifend austauschen können, um neue Umsatzströme zu generieren und den Geschäftswert zu steigern, ohne auf proprietäre Formate, komplexe ETL-Prozesse oder eine kostspielige Datenreplikation angewiesen zu sein.

Zurück zum Glossar