IniziaInizia gratis

Creare RDD

In PySpark puoi creare un RDD (Resilient Distributed Dataset) in diversi modi. Dato che conosci già i DataFrame, lo imposterai partendo da un DataFrame. Ricorda: nel tuo workspace è già disponibile una SparkSession chiamata spark!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un DataFrame dalla lista fornita chiamato df.
  • Converte il DataFrame in un RDD.
  • Colleziona e stampa l'RDD risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Modifica ed esegui il codice