LoslegenKostenlos loslegen

Interaktive Nutzung von PySpark

Spark wird mit einer interaktiven Python-Shell geliefert, in der PySpark bereits installiert ist. Die PySpark-Shell ist für grundlegende Tests und Debugging nützlich und ziemlich mächtig. Am einfachsten lässt sich die Leistungsfähigkeit der PySpark-Shell anhand einer Übung demonstrieren. In dieser Übung lädst du eine einfache Liste mit Zahlen von 1 bis 100 in die PySpark-Shell.

Zu beachten ist hierbei, dass wir kein SparkContext-Objekt erstellen, da PySpark automatisch das SparkContext-Objekt namens sc in der PySpark-Shell erstellt.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine Python-Liste namens numb, die die Zahlen 1 bis 100 enthält.
  • Lade die Liste mit der Methode parallelize von SparkContext in Spark und weise sie einer Variablen namens spark_data zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a Python list of numbers from 1 to 100 
numb = range(____, ____)

# Load the list into PySpark  
spark_data = sc.____(numb)
Code bearbeiten und ausführen