IniziaInizia gratis

Usare Spark in Python

Il primo passo per usare Spark è connettersi a un cluster.

In pratica, il cluster è ospitato su una macchina remota collegata a tutti gli altri nodi. C’è un computer, chiamato master, che gestisce la suddivisione dei dati e dei calcoli. Il master è collegato al resto dei computer nel cluster, detti worker. Il master invia ai worker i dati e i calcoli da eseguire, e loro rimandano i risultati al master.

Quando inizi a usare Spark è più semplice eseguire un cluster in locale. Quindi, in questo corso, invece di connetterti a un altro computer, tutti i calcoli verranno eseguiti sui server di DataCamp in un cluster simulato.

Creare la connessione è semplice quanto creare un’istanza della classe SparkContext. Il costruttore della classe accetta alcuni argomenti facoltativi che ti permettono di specificare gli attributi del cluster a cui ti stai connettendo.

Un oggetto che contiene tutti questi attributi può essere creato con il costruttore SparkConf(). Dai un’occhiata alla documentazione per tutti i dettagli!

Per il resto di questo corso avrai già a disposizione nel tuo workspace uno SparkContext chiamato sc.

Come ti connetti a un cluster Spark da PySpark?

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio