Interactief gebruik van PySpark
Spark wordt geleverd met een interactieve Python-shell waarin PySpark al is geïnstalleerd. De PySpark-shell is handig voor basistests en debuggen en is behoorlijk krachtig. De makkelijkste manier om de kracht van de PySpark-shell te laten zien, is met een oefening. In deze oefening laad je een eenvoudige lijst met getallen van 1 tot en met 100 in de PySpark-shell.
Het belangrijkste om hier te begrijpen is dat we geen SparkContext-object aanmaken, omdat PySpark automatisch het SparkContext-object met de naam sc in de PySpark-shell creëert.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een Python-lijst met de naam
numbmet de getallen 1 tot en met 100. - Laad de lijst in Spark met de
parallelize-methode van Spark Context en ken deze toe aan een variabelespark_data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)