RDD naar DataFrame
Net als RDD's zijn DataFrames onveranderlijke en gedistribueerde datastructuren in Spark. Hoewel RDD's een fundamentele datastructuur in Spark zijn, werk je met DataFrames meestal makkelijker met data dan met RDD's. Het is dus belangrijk om te begrijpen hoe je een RDD omzet naar een DataFrame.
In deze oefening maak je eerst een RDD met de al beschikbare sample_list. Deze RDD bevat een lijst met tuples ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) waarbij elke tuple de naam van de persoon en zijn/haar leeftijd bevat. Daarna maak je een DataFrame op basis van de RDD en het schema (de lijst met 'Name' en 'Age') en controleer je tot slot dat de output een PySpark DataFrame is.
Vergeet niet: je hebt al een SparkContext sc en SparkSession spark in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een RDD van de
sample_list. - Maak een PySpark DataFrame met de bovenstaande RDD en het schema.
- Bevestig dat de output een PySpark DataFrame is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))