Set di dati distribuito resiliente (RDD)
Prova Databricks gratis
Fin dalla sua concezione, RDD è stata la principale API di Spark rivolta all'utente. In sostanza, un RDD è una raccolta distribuita e immutabile di elementi dei tuoi dati, partizionata tra i nodi di clusters, che può essere gestita in parallelo con un'API di basso livello che offre trasformazioni e azioni.
5 motivi per utilizzare gli RDD:
- vuoi eseguire trasformazioni e azioni di basso livello e controllare il tuo set di dati;
- vuoi operare con dati non strutturati, come flussi multimediali o flussi di testo;
- vuoi manipolare i dati con costrutti di programmazione funzionali anziché con espressioni specifiche del dominio;
- non ti interessa imporre uno schema, come ad esempio il formato a colonne, durante l'elaborazione o l'accesso agli attributi dei dati per nome o colonna;
- puoi a rinunciare ad alcuni dei vantaggi in termini di ottimizzazione e prestazioni disponibili con DataFrames e a set di dati per dati strutturati e semi-strutturati.
Cosa succede agli RDD in Apache Spark 2.0?
Gli RDD sono relegati a un ruolo secondario? Sono diventati obsoleti? Assolutamente no! La novità è che puoi passare da DataFrame o set di dati a RDD tramite semplici chiamate di metodo API, in qualunque momento ciò si renda necessario, e che DataFrame e set di dati sono basati su RDD.