Passa al contenuto principale

DataFrames

Cos'è un DataFrame?

Un DataFrame è una struttura dati che organizza i dati in una tabella bidimensionale di righe e colonne, simile a un foglio di calcolo. I DataFrames sono una delle più comuni strutture utilizzate nella moderna analisi dei dati perché rappresentano un modo flessibile e intuitivo di archiviare i dati e lavorare con essi.

Ogni DataFrame contiene un progetto, chiamato schema, che definisce il nome e il tipo di dati di ciascuna colonna. I DataFrames di Spark possono contenere tipi di dati universali come StringType e IntegerType, e tipi di dati specifici di Spark, come StructType. I valori mancanti o incompleti vengono archiviati come valori null nel DataFrame.

Per semplificare, possiamo dire che un DataFrame è come un foglio di calcolo con colonne denominate. La differenza è che mentre un foglio di calcolo si trova su un computer in una posizione specifica, un DataFrame può estendersi su migliaia di computer. In questo modo, i DataFrame permettono di effettuare analisi su Big Data, utilizzando cluster computazionali distribuiti.

Il motivo per cui i dati vengono ripartiti su più computer è semplice: o il volume dei dati è eccessivo per una sola macchina, o semplicemente eseguire quel calcolo su una sola macchina richiederebbe troppo tempo.

DataFrames

Il concetto di DataFrame è comune a molti linguaggi e framework diversi. I DataFrames sono il principale tipo di dati utilizzato in pandas, la popolare libreria Python per l'analisi dei dati, e anche R, Scala e altri linguaggi fanno uso di DataFrames.

Ecco altre informazioni utili

Il grande libro dell'ingegneria dei dati

Sviluppa rapidamente le tue competenze con questa guida essenziale all'era dell'AI.

Leggi

Introduzione all'ETL

Scopri come funzionano le pipeline ETL con questa guida tecnica di O'Reilly.

SCARICA

The Big Book of Machine Learning Use Cases – 2nd Edition

La guida completa all'utilizzo del machine learning, con casi d'uso, esempi di codice e notebook.

Richiedi l'eBook
Torna al Glossario