IniziaInizia gratis

Ma quindi, cos’è Spark?

Spark è una piattaforma per il computing su cluster. Con Spark puoi distribuire dati e calcoli su cluster con più nodi (pensa a ogni nodo come a un computer separato). Suddividere i dati semplifica il lavoro con insiemi di dati molto grandi, perché ogni nodo gestisce solo una piccola porzione di dati.

Mentre ogni nodo lavora sul proprio sottoinsieme del totale, esegue anche una parte dei calcoli necessari, così sia l’elaborazione dei dati sia il calcolo avvengono in parallelo sui nodi del cluster. È un dato di fatto che il calcolo parallelo può rendere molto più rapide alcune tipologie di attività di programmazione.

Tuttavia, a maggiore potenza di calcolo corrisponde anche maggiore complessità.

Stabilire se Spark è la soluzione migliore per il tuo problema richiede un po’ di esperienza, ma puoi partire da domande come:

  • I miei dati sono troppo grandi per lavorarci su una singola macchina?
  • I miei calcoli si possono parallelizzare facilmente?

Sei pronto a scoprire di più su Spark?

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio