Jeu de données

Qu'est-ce qu'un dataset ?

Un dataset est une collection structurée de données, organisées et stockées à des fins d'analyse ou de traitement. Les données d'un dataset ont généralement des points communs et proviennent d'une même source, ou sont destinées à un même projet. Un dataset peut contenir, par exemple, une collection de données commerciales (chiffres de vente, coordonnées des clients, transactions, etc.). Un dataset peut comprendre des types très variés de données, depuis les valeurs numériques jusqu'aux enregistrements audio, en passant par le texte ou les images. Les données d'un dataset sont généralement accessibles individuellement, en combinaison ou en tant qu'entité globale.

Les datasets sont des outils indispensables à l'analytique, l'analyse de données et le machine learning (ML). Ce sont eux qui fournissent les données dont les analystes déduisent des insights et des tendances. Ils jouent un rôle clé dans le ML : le choix du dataset est en effet une des étapes initiales les plus cruciales dans un projet d'entraînement et de déploiement d'un modèle de ML.

Poursuivez votre exploration

Le Grand livre des cas d'usage du Machine Learning – 2e édition

Un guide pratique complet pour utiliser le machine learning, avec des cas d'usage, des exemples de code et des notebooks.

Obtenir l'e-book

Puisez dans le potentiel des LLM

Comment gagner en efficacité et réduire les coûts avec l'IA.

TÉLÉCHARGER MAINTENANT

Le Grand Livre des MLOps

Découvrez de nouvelles stratégies d'IA générative et de LLMOps

Obtenir l'e-book

Faut-il écrire data set ou dataset ?

L'orthographe du mot dataset a fait l'objet de certains débats dans les milieux anglophones. Le dictionnaire de référence Merriam-Webster l'écrit en un seul mot, mais d'autres sources, comme Dictionary.com, indiquent data set. Chez Databricks, nous privilégions l'orthographe dataset.

Dataset vs base de données

Il y a parfois une certaine confusion entre les termes dataset et base de données. Certes, les deux termes décrivent un mode d'organisation et de gestion des données, mais ces deux objets présentent des différences notables :

Comme nous l'avons vu dans la première section, un dataset est une collection de données utilisées à des fins d'analyse et de modélisation, généralement organisées dans un format structuré. Ce format peut être un tableau Excel, un fichier CSV ou JSON, ou autre support du même type. Les données d'un dataset peuvent être organisées de multiples façons et provenir d'un large éventail de sources : une enquête client, une expérimentation ou une base de données existante, par exemple. Un dataset peut avoir de nombreux usages : il peut servir à entraîner et tester des modèles de machine learning, à produire des visualisations, ou à appuyer des recherches ou des analyses statistiques. Les datasets peuvent être partagés et publics, ou bien confidentiels et privés. Un dataset est généralement moins volumineux qu'une base de données.

Une base de données, quant à elle, est conçue pour le stockage et la gestion à long terme de grandes quantités de données organisées et conservées sous forme électronique. Les données sont faciles à consulter, à manipuler et à mettre à jour. En d'autres termes, une base de données est une collection organisée de données stockées sous la forme de multiples datasets. Il existe plusieurs types de bases de données : relationnelles, de documents, clé-valeur, etc.

Quelques exemples de datasets

Un dataset peut contenir des nombres, du texte, des images, des enregistrements audio ou même des descriptions d'objets simples. Il peut être organisé de différentes manières, sous forme de tableau ou de fichier notamment. En voici quelques exemples :

Dataset contenant un inventaire de toutes les ventes immobilières d'une région définie pendant une période donnée
Dataset contenant des informations sur tous les impacts connus de météorites
Dataset sur la qualité de l'air d'une région spécifique sur une période donnée
Dataset compilant les taux de présence des élèves de maternelle par groupe d'élèves et par district au cours de l'année scolaire 2021-2022.

Datasets publics

Les datasets publics regroupent des données publiques organisées autour d'un thème. Elles sont libres d'accès. Les datasets publics sont particulièrement utiles aux data scientists qui entraînent des modèles de ML, parce qu'il sont le plus souvent gratuits et faciles à télécharger.

Par exemple, l'Administration nationale océanique et atmosphérique (NOAA) fournit des données sur tout, de la qualité de l'eau au changement climatique. Les données de surveillance automatique de la dépendance (ADS-B) montrent le mouvement des avions commerciaux en temps réel, et l'Administration des services généraux des États-Unis met plus de 200 000 datasets et des centaines de catégories à la disposition du public sur Data.gov.

Databricks propose également de nombreux datasets d'exemple fournis par des tiers et utilisables dans l'espace de travail Databricks. Utilisés en conjonction avec les outils d'IA et de machine learning de Databricks, ces datasets permettent aux équipes ML de préparer et de traiter des données, de rationaliser la collaboration à travers l'entreprise et de standardiser l'ensemble du cycle de vie du ML, depuis l'expérimentation jusqu'à la production, y compris pour l'IA générative et les grands modèles de langage.

Utilisation des datasets

Il existe plusieurs manières d'utiliser des datasets. Les analystes s'en servent pour explorer et visualiser des informations de business intelligence. Les data scientists les utilisent pour entraîner des modèles de ML. Mais pour les exploiter, il faut d'abord importer les données dans un data lake ou un lakehouse à l'aide de processus de data engineering, à commencer par l'ETL (extraction, transformation, chargement). L’ETL permet aux ingénieurs d’extraire des données de différentes sources et de les transformer en une ressource utilisable et fiable. Il permet aussi de les charger dans les systèmes auxquels les utilisateurs finaux peuvent accéder et qu’ils utilisent pour résoudre leurs problématiques métier.

Gérer, cataloguer et sécuriser les datasets

Pour être exploitables, les datasets doivent être catalogués, encadrés et stockés de façon sécurisée à l'aide d'un système de gouvernance. En mettant en place une stratégie de gouvernance efficace, les entreprises pourront mettre leurs données au service d'une prise de décision axée sur les données, tout en les protégeant des accès non autorisés et en assurant leur conformité réglementaire.

Pour relever les défis de la gouvernance des données, Databricks a mis au point Unity Catalog, une solution de gouvernance unifiée pour les assets de données et d'IA dans le lakehouse. Avec Unity Catalog, les entreprises peuvent unifier la gouvernance des données structurées et non structurées, des modèles de machine learning, des notebooks, des tableaux de bord et des fichiers stockés sur tous les clouds et toutes les plateformes. Les data scientists, analystes et ingénieurs peuvent utiliser Unity Catalog pour découvrir et consulter des données de confiance et des assets d'IA de façon sécurisée et collaborative.

Partage des datasets

La plupart des data scientists ne veulent pas seulement collecter et analyser des datasets, ils veulent aussi pouvoir les partager. Le partage des données encourage les échanges et la collaboration, ce qui peut donner lieu à de nouvelles découvertes importantes. Delta Sharing est un outil open source intégré à Unity Catalog qui permet aux data scientists et aux analystes de partager des assets de données et d'IA répartis sur plusieurs clouds, régions et plateformes. Il facilite la création de nouveaux flux de revenus et l'extraction de la valeur commerciale sans la contrainte de formats propriétaires, de processus ETL complexes ou d'opérations de réplication coûteuses.

Ressources complémentaires

Retour au glossaire