Da RDD a DataFrame
Come gli RDD, anche i DataFrame sono strutture dati immutabili e distribuite in Spark. Anche se gli RDD sono una struttura dati fondamentale in Spark, lavorare con i dati nei DataFrame è più semplice che negli RDD. Quindi, capire come convertire un RDD in un DataFrame è necessario.
In questo esercizio, per prima cosa creerai un RDD usando sample_list, già fornita. Questo RDD contiene un elenco di tuple ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26), in cui ogni tupla contiene il nome della persona e la sua età. Poi creerai un DataFrame usando l'RDD e lo schema (che è la lista di 'Name' e 'Age') e infine confermerai che l'output è un DataFrame di PySpark.
Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e una SparkSession spark.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea un RDD a partire da
sample_list. - Crea un DataFrame PySpark usando l'RDD sopra e lo schema.
- Conferma che l'output è un DataFrame PySpark.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))