DataFrames
Qu'est-ce qu'un DataFrame ?
Un DataFrame est une structure qui organise les données en tables bidimensionnelles de lignes et de colonnes, comparables à une feuille de calcul. Les DataFrames font partie des structures de données les plus couramment utilisées dans l'analytique de données parce qu'elles offrent un moyen à la fois flexible et intuitif de stocker et d'exploiter des données.
Chaque DataFrame contient un modèle appelé schéma qui définit le nom et le type de données de chaque colonne. Les DataFrames Spark peuvent contenir des types de données universels comme StringType et IntegerType, ainsi que les types de données spécifiques à Spark, comme StructType. Les valeurs manquantes ou incomplètes sont stockées sous la forme de valeurs null dans le DataFrame.
Pour prendre une analogie simple, un DataFrame est similaire à une feuille de calcul avec des colonnes nommées. Mais la comparaison s'arrête là : si une feuille de calcul se trouve à un emplacement spécifique sur un ordinateur, un DataFrame peut s'étendre sur des milliers de machines. De cette façon, les DataFrames permettent d'appliquer de l'analytique à des données Big Data au moyen de clusters de calcul distribués.
La raison pour laquelle les données sont dispersées sur plusieurs ordinateurs doit être intuitive : soit les données sont trop volumineuses, soit il faudrait trop de temps pour effectuer les calculs sur une même machine.
Le concept de DataFrame est commun à de nombreux langages et frameworks différents. Les DataFrames représentent le principal type de données utilisé dans pandas, la bibliothèque d'analyse de données Python, et ils sont également utilisés en R, en Scala et dans d'autres langages.
Poursuivez votre exploration

Le Grand Livre du Data Engineering
Dopez votre expertise avec ce guide essentiel sur l'ère de l'IA.

Démarrer avec l'ETL
Explorez les pipelines ETL dans ce guide technique O'Reilly.

Le Grand livre des cas d'usage du Machine Learning – 2e édition
Un guide pratique complet pour utiliser le machine learning, avec des cas d'usage, des exemples de code et des notebooks.