Usare i DataFrame
La struttura dati principale di Spark è il Resilient Distributed Dataset (RDD). È un oggetto di basso livello che permette a Spark di fare la sua magia distribuendo i dati su più nodi del cluster. Tuttavia, lavorare direttamente con gli RDD non è semplice, quindi in questo corso userai l’astrazione Spark DataFrame, costruita sopra gli RDD.
Lo Spark DataFrame è stato progettato per comportarsi in modo molto simile a una tabella SQL (una tabella con variabili nelle colonne e osservazioni nelle righe). Oltre a essere più intuitivi, i DataFrame sono anche più ottimizzati per le operazioni complesse rispetto agli RDD.
Quando inizi a modificare e combinare colonne e righe di dati, ci sono molti modi per arrivare allo stesso risultato, ma alcuni richiedono molto più tempo di altri. Con gli RDD, tocca al data scientist capire come ottimizzare la query; l’implementazione dei DataFrame, invece, integra gran parte di queste ottimizzazioni!
Per iniziare a lavorare con gli Spark DataFrame, devi prima creare un oggetto SparkSession a partire dal tuo SparkContext. Puoi pensare allo SparkContext come alla tua connessione al cluster e alla SparkSession come all’interfaccia con quella connessione.
Ricorda: per il resto del corso avrai una SparkSession chiamata spark già disponibile nel tuo workspace!
Quale delle seguenti è un vantaggio degli Spark DataFrame rispetto agli RDD?
Questo esercizio fa parte del corso
Fondamenti di PySpark
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio