Caricare un CSV in un DataFrame

Nel precedente esercizio hai visto un metodo per creare un DataFrame a partire da un RDD. In generale, caricare dati da un file CSV è il metodo più comune per creare DataFrame. In questo esercizio creerai un DataFrame PySpark dal file people.csv, che ti viene già fornito come file_path, e verificherai che l’oggetto creato sia un DataFrame PySpark.

Ricorda: nel tuo workspace hai già a disposizione una SparkSession spark e una variabile file_path (il percorso del file people.csv).

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Crea un DataFrame usando la variabile file_path, che è il percorso del file people.csv.
Conferma che l’output sia un DataFrame PySpark.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)

# Check the type of people_df
print("The type of people_df is", ____(people_df))

Modifica ed esegui il codice