Parte 3: Visualizzazione dei dati
La visualizzazione dei dati è fondamentale per l’esplorazione dei dati (EDA). Il DataFrame di PySpark è ideale per la visualizzazione rispetto agli RDD grazie alla sua struttura e allo schema integrati.
In questa terza parte, creerai un istogramma delle età di tutti i giocatori della Germania a partire dal DataFrame che hai creato nell’esercizio precedente. Per farlo, prima convertirai il DataFrame PySpark in un DataFrame Pandas e userai la funzione plot() di matplotlib per creare un grafico di densità delle età di tutti i giocatori della Germania.
Ricorda che nel tuo workspace sono già disponibili una SparkSession spark, una tabella temporanea fifa_df_table e un DataFrame fifa_df_germany_age.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Converti
fifa_df_germany_agenel DataFrame Pandasfifa_df_germany_age_pandas. - Genera un grafico di densità della colonna 'Age' dal DataFrame Pandas
fifa_df_germany_age_pandas.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()