Troisième partie : Visualisation des données

La visualisation des données est importante pour l'analyse exploratoire des données (EDA). Un DataFrame PySpark est parfait pour la visualisation de données par rapport aux RDD en raison de sa structure et de son schéma inhérents.

Dans cette troisième partie, vous allez créer un histogramme des âges de tous les joueurs allemands à partir du DataFrame que vous avez créé dans l'exercice précédent. Pour cela, vous allez d'abord convertir le DataFrame PySpark en DataFrame Pandas et utiliser la fonction plot() de matplotlib pour créer un graphique de densité des âges de tous les joueurs d'Allemagne.

N'oubliez pas que vous disposez déjà d'une SparkSession spark, d'une table temporaire fifa_df_table et d'un DataFrame fifa_df_germany_age dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Convertissez fifa_df_germany_age en DataFrame Pandas fifa_df_germany_age_pandas.
Créez un graphique de densité de la colonne « Age » du DataFrame Pandas fifa_df_germany_age_pandas.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Modifier et exécuter le code