LoslegenKostenlos loslegen

Spark in Python verwenden

Der erste Schritt zur Nutzung von Spark ist die Verbindung zu einem Cluster.

In der Praxis wird der Cluster auf einem Remote-Computer gehostet, der mit allen anderen Knoten verbunden ist. Es gibt einen Computer, der Master genannt wird und die Aufteilung der Daten und Berechnungen verwaltet. Der Master ist mit den restlichen Computern des Clusters verbunden, die Worker genannt werden. Der Master sendet Daten und Berechnungen an die Worker, und die Worker senden ihre Ergebnisse an den Master zurück.

Wenn du gerade erst mit Spark anfängst, ist es einfacher, einen Cluster lokal zu betreiben. Deshalb werden in diesem Kurs alle Berechnungen auf den DataCamp-Servern in einem simulierten Cluster ausgeführt, anstatt eine Verbindung zu einem anderen Computer herzustellen.

Die Verbindung wird einfach durch das Erstellen einer Instanz der Klasse SparkContext angelegt. Der Klassenkonstruktor akzeptiert einige optionale Argumente, mit denen du die Eigenschaften des Clusters, mit dem du dich verbindest, festlegen kannst.

Ein Objekt mit all diesen Attributen kann mit dem SparkConf()-Konstruktor erstellt werden. Sieh dir die Dokumentation an, um alle Details zu erfahren!

Für den Rest dieses Kurses hast du bereits einen SparkContext mit dem Namen sc in deinem Arbeitsbereich zur Verfügung.

Wie verbinde ich mich von PySpark aus mit einem Spark-Cluster?

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Interaktive Übung

Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um

Übung starten