Aan de slagGa gratis aan de slag

RDD's maken

In PySpark kun je op verschillende manieren een RDD (Resilient Distributed Dataset) maken. Omdat je al bekend bent met DataFrames, ga je dit opzetten met een DataFrame. Onthoud: er staat al een SparkSession met de naam spark klaar in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak van de meegeleverde lijst een DataFrame met de naam df.
  • Zet de DataFrame om naar een RDD.
  • Verzamel en print de resulterende RDD.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Code bewerken en uitvoeren