DataFrames
Cos'è un DataFrame?
Un DataFrame è una struttura dati che organizza i dati in una tabella bidimensionale di righe e colonne, simile a un foglio di calcolo. I DataFrames sono una delle più comuni strutture utilizzate nella moderna analisi dei dati perché rappresentano un modo flessibile e intuitivo di archiviare i dati e lavorare con essi.
Ogni DataFrame contiene un progetto, chiamato schema, che definisce il nome e il tipo di dati di ciascuna colonna. I DataFrames di Spark possono contenere tipi di dati universali come StringType e IntegerType, e tipi di dati specifici di Spark, come StructType. I valori mancanti o incompleti vengono archiviati come valori null nel DataFrame.
Per semplificare, possiamo dire che un DataFrame è come un foglio di calcolo con colonne denominate. La differenza è che mentre un foglio di calcolo si trova su un computer in una posizione specifica, un DataFrame può estendersi su migliaia di computer. In questo modo, i DataFrame permettono di effettuare analisi su Big Data, utilizzando cluster computazionali distribuiti.
Il motivo per cui i dati vengono ripartiti su più computer è semplice: o il volume dei dati è eccessivo per una sola macchina, o semplicemente eseguire quel calcolo su una sola macchina richiederebbe troppo tempo.
Il concetto di DataFrame è comune a molti linguaggi e framework diversi. I DataFrames sono il principale tipo di dati utilizzato in pandas, la popolare libreria Python per l'analisi dei dati, e anche R, Scala e altri linguaggi fanno uso di DataFrames.
Ecco altre informazioni utili

Il grande libro dell'ingegneria dei dati
Sviluppa rapidamente le tue competenze con questa guida essenziale all'era dell'AI.

Introduzione all'ETL
Scopri come funzionano le pipeline ETL con questa guida tecnica di O'Reilly.

The Big Book of Machine Learning Use Cases – 2nd Edition
La guida completa all'utilizzo del machine learning, con casi d'uso, esempi di codice e notebook.