Usare Spark in Python
Il primo passo per usare Spark è connettersi a un cluster.
In pratica, il cluster è ospitato su una macchina remota collegata a tutti gli altri nodi. C’è un computer, chiamato master, che gestisce la suddivisione dei dati e dei calcoli. Il master è collegato al resto dei computer nel cluster, detti worker. Il master invia ai worker i dati e i calcoli da eseguire, e loro rimandano i risultati al master.
Quando inizi a usare Spark è più semplice eseguire un cluster in locale. Quindi, in questo corso, invece di connetterti a un altro computer, tutti i calcoli verranno eseguiti sui server di DataCamp in un cluster simulato.
Creare la connessione è semplice quanto creare un’istanza della classe SparkContext. Il costruttore della classe accetta alcuni argomenti facoltativi che ti permettono di specificare gli attributi del cluster a cui ti stai connettendo.
Un oggetto che contiene tutti questi attributi può essere creato con il costruttore SparkConf(). Dai un’occhiata alla documentazione per tutti i dettagli!
Per il resto di questo corso avrai già a disposizione nel tuo workspace uno SparkContext chiamato sc.
Come ti connetti a un cluster Spark da PySpark?
Questo esercizio fa parte del corso
Fondamenti di PySpark
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio