Parte 3: Visualizzazione dei dati

La visualizzazione dei dati è fondamentale per l’esplorazione dei dati (EDA). Il DataFrame di PySpark è ideale per la visualizzazione rispetto agli RDD grazie alla sua struttura e allo schema integrati.

In questa terza parte, creerai un istogramma delle età di tutti i giocatori della Germania a partire dal DataFrame che hai creato nell’esercizio precedente. Per farlo, prima convertirai il DataFrame PySpark in un DataFrame Pandas e userai la funzione plot() di matplotlib per creare un grafico di densità delle età di tutti i giocatori della Germania.

Ricorda che nel tuo workspace sono già disponibili una SparkSession spark, una tabella temporanea fifa_df_table e un DataFrame fifa_df_germany_age.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Converti fifa_df_germany_age nel DataFrame Pandas fifa_df_germany_age_pandas.
Genera un grafico di densità della colonna 'Age' dal DataFrame Pandas fifa_df_germany_age_pandas.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Modifica ed esegui il codice