Interactief gebruik van PySpark

Spark wordt geleverd met een interactieve Python-shell waarin PySpark al is geïnstalleerd. De PySpark-shell is handig voor basistests en debuggen en is behoorlijk krachtig. De makkelijkste manier om de kracht van de PySpark-shell te laten zien, is met een oefening. In deze oefening laad je een eenvoudige lijst met getallen van 1 tot en met 100 in de PySpark-shell.

Het belangrijkste om hier te begrijpen is dat we geen SparkContext-object aanmaken, omdat PySpark automatisch het SparkContext-object met de naam sc in de PySpark-shell creëert.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

Maak een Python-lijst met de naam numb met de getallen 1 tot en met 100.
Laad de lijst in Spark met de parallelize-methode van Spark Context en ken deze toe aan een variabele spark_data.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)

Code bewerken en uitvoeren