Interaktive Nutzung von PySpark
Spark wird mit einer interaktiven Python-Shell geliefert, in der PySpark bereits installiert ist. Die PySpark-Shell ist für grundlegende Tests und Debugging nützlich und ziemlich mächtig. Am einfachsten lässt sich die Leistungsfähigkeit der PySpark-Shell anhand einer Übung demonstrieren. In dieser Übung lädst du eine einfache Liste mit Zahlen von 1 bis 100 in die PySpark-Shell.
Zu beachten ist hierbei, dass wir kein SparkContext-Objekt erstellen, da PySpark automatisch das SparkContext-Objekt namens sc in der PySpark-Shell erstellt.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine Python-Liste namens
numb, die die Zahlen 1 bis 100 enthält. - Lade die Liste mit der Methode
parallelizevon SparkContext in Spark und weise sie einer Variablen namensspark_datazu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a Python list of numbers from 1 to 100
numb = range(____, ____)
# Load the list into PySpark
spark_data = sc.____(numb)