RDD naar DataFrame

Net als RDD's zijn DataFrames onveranderlijke en gedistribueerde datastructuren in Spark. Hoewel RDD's een fundamentele datastructuur in Spark zijn, werk je met DataFrames meestal makkelijker met data dan met RDD's. Het is dus belangrijk om te begrijpen hoe je een RDD omzet naar een DataFrame.

In deze oefening maak je eerst een RDD met de al beschikbare sample_list. Deze RDD bevat een lijst met tuples ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) waarbij elke tuple de naam van de persoon en zijn/haar leeftijd bevat. Daarna maak je een DataFrame op basis van de RDD en het schema (de lijst met 'Name' en 'Age') en controleer je tot slot dat de output een PySpark DataFrame is.

Vergeet niet: je hebt al een SparkContext sc en SparkSession spark in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Maak een RDD van de sample_list.
Maak een PySpark DataFrame met de bovenstaande RDD en het schema.
Bevestig dat de output een PySpark DataFrame is.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))

Code bewerken en uitvoeren