Parte 1: Crea un DataFrame da un file CSV

Ogni 4 anni, i tifosi di calcio di tutto il mondo celebrano il “Fifa World Cup” e, con esso, in molti Paesi sembra cambiare tutto. In questo esercizio in 3 parti farai dell'analisi esplorativa dei dati (EDA) sul dataset "FIFA 2018 World Cup Player" usando PySpark SQL, con operazioni sui DataFrame, query SQL e visualizzazioni.

Nella prima parte caricherai il dataset dei giocatori dei Mondiali FIFA 2018 (Fifa2018_dataset.csv), in formato CSV, in un DataFrame di PySpark e ispezionerai i dati usando le operazioni di base sui DataFrame.

Ricorda: nel tuo workspace hai già a disposizione una SparkSession spark e una variabile file_path.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Crea un DataFrame PySpark da file_path (che è il percorso del file Fifa2018_dataset.csv).
Stampa lo schema del DataFrame.
Stampa le prime 10 osservazioni.
Quante righe ci sono nel DataFrame?

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))

Modifica ed esegui il codice