IniziaInizia gratis

Eliminare l'intermediario

Ora sai come caricare i dati in Spark tramite pandas, ma forse ti stai chiedendo: perché passare da pandas? Non sarebbe più semplice leggere direttamente un file di testo in Spark? Certo che sì!

Per fortuna, il tuo SparkSession ha un attributo .read con diversi metodi per leggere varie sorgenti dati in DataFrame di Spark. Con questi puoi creare un DataFrame da un file .csv proprio come faresti con i DataFrame di pandas!

La variabile file_path è una stringa con il percorso al file airports.csv. Questo file contiene informazioni su diversi aeroporti in tutto il mondo.

Nel tuo workspace è disponibile uno SparkSession chiamato spark.

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Usa il metodo .read.csv() per creare un DataFrame di Spark chiamato airports
    • Il primo argomento è file_path
    • Passa l'argomento header=True in modo che Spark prenda i nomi delle colonne dalla prima riga del file.
  • Stampa questo DataFrame chiamando .show().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Don't change this file path
file_path = "/usr/local/share/datasets/airports.csv"

# Read in the airports data
airports = ____.____.____(____, ____=____)

# Show the data
____.____()
Modifica ed esegui il codice