Revenir au contenu principal

DataFrames

Essayer Gratuitement Databricks

Qu'est-ce qu'un DataFrame ?

Un DataFrame est une structure qui organise les données en tables bidimensionnelles de lignes et de colonnes, comparables à une feuille de calcul. Les DataFrames font partie des structures de données les plus couramment utilisées dans l'analytique de données parce qu'elles offrent un moyen à la fois flexible et intuitif de stocker et d'exploiter des données.

Chaque DataFrame contient un modèle appelé schéma qui définit le nom et le type de données de chaque colonne. Les DataFrames Spark peuvent contenir des types de données universels comme StringType et IntegerType, ainsi que les types de données spécifiques à Spark, comme StructType. Les valeurs manquantes ou incomplètes sont stockées sous la forme de valeurs null dans le DataFrame.

Pour prendre une analogie simple, un DataFrame est similaire à une feuille de calcul avec des colonnes nommées. Mais la comparaison s'arrête là : si une feuille de calcul se trouve à un emplacement spécifique sur un ordinateur, un DataFrame peut s'étendre sur des milliers de machines. De cette façon, les DataFrames permettent d'appliquer de l'analytique à des données Big Data au moyen de clusters de calcul distribués.

La raison pour laquelle les données sont dispersées sur plusieurs ordinateurs doit être intuitive : soit les données sont trop volumineuses, soit il faudrait trop de temps pour effectuer les calculs sur une même machine.

DataFrames

Le concept de DataFrame est commun à de nombreux langages et frameworks différents. Les DataFrames représentent le principal type de données utilisé dans pandas, la bibliothèque d'analyse de données Python, et ils sont également utilisés en R, en Scala et dans d'autres langages.

Ressources complémentaires

Retour au glossaire
Glossary-Overview-Sidebar

Découvrez ce qui motive le modèle Lakehouse.

S'INSCRIRE MAINTENANT