LoslegenKostenlos loslegen

RDDs erstellen

In PySpark kannst du ein RDD (Resilient Distributed Dataset) auf verschiedene Arten erstellen. Da du bereits mit DataFrames vertraut bist, richtest du es hier über ein DataFrame ein. Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle aus der bereitgestellten Liste ein DataFrame namens df.
  • Konvertiere das DataFrame in ein RDD.
  • Sammle und gib das resultierende RDD aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Code bearbeiten und ausführen