IniziaInizia gratis

Uso interattivo di PySpark

Spark include una shell interattiva di Python in cui PySpark è già installato. La shell di PySpark è utile per test e debugging di base ed è piuttosto potente. Il modo più semplice per mostrare la potenza della shell di PySpark è con un esercizio. In questo esercizio, caricherai una semplice lista con numeri da 1 a 100 nella shell di PySpark.

La cosa più importante da capire qui è che non stiamo creando alcun oggetto SparkContext perché PySpark crea automaticamente l’oggetto SparkContext chiamato sc nella shell di PySpark.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una lista Python chiamata numb che contenga i numeri da 1 a 100.
  • Carica la lista in Spark usando il metodo parallelize di Spark Context e assegnala a una variabile spark_data.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Modifica ed esegui il codice