Aan de slagBegin gratis

RDD's maken

In PySpark kun je op verschillende manieren een RDD (Resilient Distributed Dataset) maken. Omdat je al bekend bent met DataFrames, ga je dit opzetten met een DataFrame. Onthoud: er staat al een SparkSession met de naam spark klaar in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Bekijk cursus

Oefeninstructies

  • Maak van de meegeleverde lijst een DataFrame met de naam df.
  • Zet de DataFrame om naar een RDD.
  • Verzamel en print de resulterende RDD.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Code bewerken en uitvoeren