LoslegenKostenlos starten

RDDs erstellen

In PySpark kannst du ein RDD (Resilient Distributed Dataset) auf verschiedene Arten erstellen. Da du bereits mit DataFrames vertraut bist, richtest du es hier über ein DataFrame ein. Denke daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle aus der bereitgestellten Liste ein DataFrame mit dem Namen df.
  • Wandle den DataFrame in ein RDD um.
  • Sammle das resultierende RDD ein und gib es aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Code bearbeiten und ausführen