Visualisation des DataFrames PySpark
Les représentations graphiques ou la visualisation des données sont incontournables pour comprendre et interpréter les données. Dans cet exercice simple de visualisation de données, vous allez d'abord afficher les noms des colonnes du DataFrame names_df
que vous avez créé précédemment, puis convertir names_df
en DataFrame Pandas, et enfin représenter le contenu sous forme de diagramme à barres horizontales avec les noms des personnes sur l'axe des x et leur âge sur l'axe des y.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
et d'un DataFrame names_df
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Affichez les noms des colonnes dans le DataFrame
names_df
. - Convertissez le DataFrame
names_df
en DataFrame Pandasdf_pandas
. - Utilisez la méthode
plot()
de matplotlib pour créer un diagramme à barres horizontal avec'Name'
sur l'axe des x et'Age'
sur l'axe des y.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()