Uso interattivo di PySpark
Spark include una shell interattiva di Python in cui PySpark è già installato. La shell di PySpark è utile per test e debugging di base ed è piuttosto potente. Il modo più semplice per mostrare la potenza della shell di PySpark è con un esercizio. In questo esercizio, caricherai una semplice lista con numeri da 1 a 100 nella shell di PySpark.
La cosa più importante da capire qui è che non stiamo creando alcun oggetto SparkContext perché PySpark crea automaticamente l’oggetto SparkContext chiamato sc nella shell di PySpark.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea una lista Python chiamata
numbche contenga i numeri da 1 a 100. - Carica la lista in Spark usando il metodo
parallelizedi Spark Context e assegnala a una variabilespark_data.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)