Creare RDD
In PySpark puoi creare un RDD (Resilient Distributed Dataset) in diversi modi. Dato che conosci già i DataFrame, lo imposterai partendo da un DataFrame. Ricorda: nel tuo workspace è già disponibile una SparkSession chiamata spark!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea un DataFrame dalla lista fornita chiamato
df. - Converte il DataFrame in un RDD.
- Colleziona e stampa l'RDD risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)