LoslegenKostenlos loslegen

Erstellen einer SparkSession

In dieser Übung startest du einen lokalen Spark-Cluster mit allen verfügbaren Kernen. Der Cluster kann über ein Objekt „ SparkSession ” erreicht werden.

Die Klasse „ SparkSession “ hat ein Attribut „ builder “, das eine Instanz der Klasse „ Builder “ ist. Die Klasse „ Builder “ stellt drei wichtige Methoden zur Verfügung, mit denen du Folgendes tun kannst:

  • Gib den Ort des Master-Knotens an.
  • nenne die Anwendung (optional); und
  • Ruf eine vorhandene „ SparkSession “ ab oder erstelle eine neue, wenn noch keine vorhanden ist.

Die Klasse „ SparkSession ” hat ein Attribut „ version ”, das die Version von Spark angibt. Hinweis: Die Version kann auch über das Attribut „ __version__ ” im Modul „ pyspark ” aufgerufen werden.

Mehr Infos zu „ SparkSession ” findest du hier.

Wenn du mit dem Cluster fertig bist, solltest du ihn am besten beenden, damit die Ressourcen wieder für andere Prozesse verfügbar sind.

Anmerkungen:

  1. Es könnte hilfreich sein, die Folien aus den Lektionen im Folienbereich neben der IPython-Shell durchzugehen.
  2. Die Version von Spark in der Übung ist nicht die gleiche wie in den Lektionen. Die Trainingsplattform wurde auf eine neuere Version von Spark umgestellt.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse SparkSession aus pyspark.sql.
  • Erstell ein „ SparkSession “-Objekt, das mit einem lokalen Cluster verbunden ist. Benutz alle verfügbaren Kerne. Nenn die App „ 'test' “.
  • Verwende das Attribut „ version ” des Objekts „ SparkSession ”, um die auf dem Cluster ausgeführte Version von Spark abzurufen. Hinweis: Die Version kann von der in der Präsentation verwendeten Version abweichen (sie wird von Zeit zu Zeit aktualisiert).
  • Schalte den Cluster aus.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the SparkSession class
from ____ import ____

# Create SparkSession object
spark = SparkSession.builder \
                    .master(____) \
                    .____(____) \
                    .____()

# What version of Spark?
print(spark.____)

# Terminate the cluster
spark.____()
Code bearbeiten und ausführen