IniziaInizia gratis

Caricare un CSV in un DataFrame

Nel precedente esercizio hai visto un metodo per creare un DataFrame a partire da un RDD. In generale, caricare dati da un file CSV è il metodo più comune per creare DataFrame. In questo esercizio creerai un DataFrame PySpark dal file people.csv, che ti viene già fornito come file_path, e verificherai che l’oggetto creato sia un DataFrame PySpark.

Ricorda: nel tuo workspace hai già a disposizione una SparkSession spark e una variabile file_path (il percorso del file people.csv).

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un DataFrame usando la variabile file_path, che è il percorso del file people.csv.
  • Conferma che l’output sia un DataFrame PySpark.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))
Modifica ed esegui il codice