Parte 1: Crea un DataFrame da un file CSV
Ogni 4 anni, i tifosi di calcio di tutto il mondo celebrano il “Fifa World Cup” e, con esso, in molti Paesi sembra cambiare tutto. In questo esercizio in 3 parti farai dell'analisi esplorativa dei dati (EDA) sul dataset "FIFA 2018 World Cup Player" usando PySpark SQL, con operazioni sui DataFrame, query SQL e visualizzazioni.
Nella prima parte caricherai il dataset dei giocatori dei Mondiali FIFA 2018 (Fifa2018_dataset.csv), in formato CSV, in un DataFrame di PySpark e ispezionerai i dati usando le operazioni di base sui DataFrame.
Ricorda: nel tuo workspace hai già a disposizione una SparkSession spark e una variabile file_path.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea un DataFrame PySpark da
file_path(che è il percorso del fileFifa2018_dataset.csv). - Stampa lo schema del DataFrame.
- Stampa le prime 10 osservazioni.
- Quante righe ci sono nel DataFrame?
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))