Caricare un CSV in un DataFrame
Nel precedente esercizio hai visto un metodo per creare un DataFrame a partire da un RDD. In generale, caricare dati da un file CSV è il metodo più comune per creare DataFrame. In questo esercizio creerai un DataFrame PySpark dal file people.csv, che ti viene già fornito come file_path, e verificherai che l’oggetto creato sia un DataFrame PySpark.
Ricorda: nel tuo workspace hai già a disposizione una SparkSession spark e una variabile file_path (il percorso del file people.csv).
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea un DataFrame usando la variabile
file_path, che è il percorso del filepeople.csv. - Conferma che l’output sia un DataFrame PySpark.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create an DataFrame from file_path
people_df = spark.____(file_path, header=True, inferSchema=True)
# Check the type of people_df
print("The type of people_df is", ____(people_df))