RDD's maken
In PySpark kun je op verschillende manieren een RDD (Resilient Distributed Dataset) maken. Omdat je al bekend bent met DataFrames, ga je dit opzetten met een DataFrame. Onthoud: er staat al een SparkSession met de naam spark klaar in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Maak van de meegeleverde lijst een DataFrame met de naam
df. - Zet de DataFrame om naar een RDD.
- Verzamel en print de resulterende RDD.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)