DataFrames
Cos'è un DataFrame?
Un DataFrame è una struttura dati che organizza i dati in una tabella bidimensionale di righe e colonne, simile a un foglio di calcolo. I DataFrames sono una delle più comuni strutture utilizzate nella moderna analisi dei dati perché rappresentano un modo flessibile e intuitivo di archiviare i dati e lavorare con essi.
Ogni DataFrame contiene un progetto, chiamato schema, che definisce il nome e il tipo di dati di ciascuna colonna. I DataFrames di Spark possono contenere tipi di dati universali come StringType e IntegerType, e tipi di dati specifici di Spark, come StructType. I valori mancanti o incompleti vengono archiviati come valori null nel DataFrame.
Per semplificare, possiamo dire che un DataFrame è come un foglio di calcolo con colonne denominate. La differenza è che mentre un foglio di calcolo si trova su un computer in una posizione specifica, un DataFrame può estendersi su migliaia di computer. In questo modo, i DataFrame permettono di effettuare analisi su Big Data, utilizzando cluster computazionali distribuiti.
Il motivo per cui i dati vengono ripartiti su più computer è semplice: o il volume dei dati è eccessivo per una sola macchina, o semplicemente eseguire quel calcolo su una sola macchina richiederebbe troppo tempo.
Il concetto di DataFrame è comune a molti linguaggi e framework diversi. I DataFrames sono il principale tipo di dati utilizzato in pandas, la popolare libreria Python per l'analisi dei dati, e anche R, Scala e altri linguaggi fanno uso di DataFrames.