Da RDD a DataFrame

Come gli RDD, anche i DataFrame sono strutture dati immutabili e distribuite in Spark. Anche se gli RDD sono una struttura dati fondamentale in Spark, lavorare con i dati nei DataFrame è più semplice che negli RDD. Quindi, capire come convertire un RDD in un DataFrame è necessario.

In questo esercizio, per prima cosa creerai un RDD usando sample_list, già fornita. Questo RDD contiene un elenco di tuple ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26), in cui ogni tupla contiene il nome della persona e la sua età. Poi creerai un DataFrame usando l'RDD e lo schema (che è la lista di 'Name' e 'Age') e infine confermerai che l'output è un DataFrame di PySpark.

Ricorda: nel tuo workspace hai già a disposizione uno SparkContext sc e una SparkSession spark.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Crea un RDD a partire da sample_list.
Crea un DataFrame PySpark usando l'RDD sopra e lo schema.
Conferma che l'output è un DataFrame PySpark.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))

Modifica ed esegui il codice