Troisième partie : Visualisation des données
La visualisation des données est importante pour l'analyse exploratoire des données (EDA). Un DataFrame PySpark est parfait pour la visualisation de données par rapport aux RDD en raison de sa structure et de son schéma inhérents.
Dans cette troisième partie, vous allez créer un histogramme des âges de tous les joueurs allemands à partir du DataFrame que vous avez créé dans l'exercice précédent. Pour cela, vous allez d'abord convertir le DataFrame PySpark en DataFrame Pandas et utiliser la fonction plot()
de matplotlib pour créer un graphique de densité des âges de tous les joueurs d'Allemagne.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
, d'une table temporaire fifa_df_table
et d'un DataFrame fifa_df_germany_age
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Convertissez
fifa_df_germany_age
en DataFrame Pandasfifa_df_germany_age_pandas
. - Créez un graphique de densité de la colonne « Age » du DataFrame Pandas
fifa_df_germany_age_pandas
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()