Eliminare l'intermediario
Ora sai come caricare i dati in Spark tramite pandas, ma forse ti stai chiedendo: perché passare da pandas? Non sarebbe più semplice leggere direttamente un file di testo in Spark? Certo che sì!
Per fortuna, il tuo SparkSession ha un attributo .read con diversi metodi per leggere varie sorgenti dati in DataFrame di Spark. Con questi puoi creare un DataFrame da un file .csv proprio come faresti con i DataFrame di pandas!
La variabile file_path è una stringa con il percorso al file airports.csv. Questo file contiene informazioni su diversi aeroporti in tutto il mondo.
Nel tuo workspace è disponibile uno SparkSession chiamato spark.
Questo esercizio fa parte del corso
Fondamenti di PySpark
Istruzioni dell'esercizio
- Usa il metodo
.read.csv()per creare un DataFrame di Spark chiamatoairports- Il primo argomento è
file_path - Passa l'argomento
header=Truein modo che Spark prenda i nomi delle colonne dalla prima riga del file.
- Il primo argomento è
- Stampa questo DataFrame chiamando
.show().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"
# Read in the airports data
airports = ____.____.____(____, ____=____)
# Show the data
____.____()