Interaktive Nutzung von PySpark
Spark wird mit einer interaktiven Python-Shell geliefert, in der PySpark bereits installiert ist. Die PySpark-Shell ist für grundlegende Tests und Debugging nützlich und ziemlich mächtig. Am einfachsten lässt sich die Leistungsfähigkeit der PySpark-Shell anhand einer Übung demonstrieren. In dieser Übung lädst du eine einfache Liste mit Zahlen von 1 bis 100 in die PySpark-Shell.
Zu beachten ist hierbei, dass wir kein SparkContext-Objekt erstellen, da PySpark automatisch das SparkContext-Objekt namens sc
in der PySpark-Shell erstellt.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine Python-Liste namens
numb
, die die Zahlen 1 bis 100 enthält. - Lade die Liste mit der Methode
parallelize
von SparkContext in Spark und weise sie einer Variablen namensspark_data
zu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)