LoslegenKostenlos loslegen

Das Muster: verbinden–arbeiten–trennen

Mit sparklyr zu arbeiten ist sehr ähnlich wie mit dplyr, wenn sich Daten in einer Datenbank befinden. Tatsächlich wandelt sparklyr deinen R‑Code in SQL um, bevor er an Spark übergeben wird.

Der typische Workflow umfasst drei Schritte:

  1. Stelle die Verbindung zu Spark her mit spark_connect().
  2. Erledige deine Arbeit.
  3. Schließe die Verbindung zu Spark mit spark_disconnect().

In dieser Übung machst du die kleinstmögliche Aufgabe: Du gibst die Version der laufenden Spark‑Installation zurück, mit spark_version().

spark_connect() erhält eine URL, die den Speicherort von Spark angibt. Für einen lokalen Cluster (so wie hier) sollte die URL "local" sein. Für einen entfernten Cluster (auf einer anderen Maschine, typischerweise ein Hochleistungsserver) ist der Verbindungsstring eine URL und ein Port, zu dem verbunden wird.

spark_version() und spark_disconnect() nehmen beide ausschließlich die Spark‑Verbindung als Argument.

Ein Hinweis vorweg: Das Herstellen der Verbindung zu einem Cluster dauert mehrere Sekunden, daher ist es unpraktisch, regelmäßig zu verbinden und zu trennen. In den DataCamp‑Übungen musst du zwar für jede Aufgabe neu verbinden, aber wenn du sparklyr in deinen eigenen Workflow integrierst, ist es meist am besten, die Verbindung die ganze Zeit offen zu halten, während du mit Spark arbeitest.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

  • Lade das Paket sparklyr mit library().
  • Stelle die Verbindung zu Spark her, indem du spark_connect() mit dem Argument master = "local" aufrufst. Weise das Ergebnis spark_conn zu.
  • Ermittle die Spark‑Version mit spark_version() und dem Argument sc = spark_conn.
  • Trenne die Verbindung zu Spark mit spark_disconnect() und dem Argument sc = spark_conn.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load sparklyr
___

# Connect to your Spark cluster
spark_conn <- ___

# Print the version of Spark
___

# Disconnect from Spark
___
Code bearbeiten und ausführen