CommencerCommencer gratuitement

Visualisation des DataFrames PySpark

Les représentations graphiques ou la visualisation des données sont incontournables pour comprendre et interpréter les données. Dans cet exercice simple de visualisation de données, vous allez d'abord afficher les noms des colonnes du DataFrame names_df que vous avez créé précédemment, puis convertir names_df en DataFrame Pandas, et enfin représenter le contenu sous forme de diagramme à barres horizontales avec les noms des personnes sur l'axe des x et leur âge sur l'axe des y.

N'oubliez pas que vous disposez déjà d'une SparkSession spark et d'un DataFrame names_df dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Affichez les noms des colonnes dans le DataFrame names_df.
  • Convertissez le DataFrame names_df en DataFrame Pandas df_pandas.
  • Utilisez la méthode plot() de matplotlib pour créer un diagramme à barres horizontal avec 'Name' sur l'axe des x et 'Age' sur l'axe des y.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Modifier et exécuter le code