PySpark-DataFrames visualisieren
Grafische Darstellungen oder Visualisierungen von Daten sind für das Verständnis und die Interpretation der Daten unerlässlich. In dieser Übung zur Datenvisualisierung gibst du zunächst die Spaltennamen im zuvor erstellten DataFrame names_df
aus, konvertierst dann names_df
in einen pandas-DataFrame und stellst schließlich den Inhalt als horizontales Balkendiagramm mit den Namen der Personen auf der x-Achse und ihrem Alter auf der y-Achse dar.
Zur Erinnerung: Die SparkSession spark
und der DataFrame names_df
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Gib die Namen der Spalten im DataFrame
names_df
aus. - Konvertiere den DataFrame
names_df
in einen pandas-DataFrame namensdf_pandas
. - Verwende die Methode
plot()
von matplotlib, um ein horizontales Balkendiagramm mit'Name'
auf der x-Achse und'Age'
auf der y-Achse zu erstellen.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Check the column names of names_df
print("The column names of names_df are", names_df.____)
# Convert to Pandas DataFrame
df_pandas = names_df.____()
# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()