Teil 3: Datenvisualisierung
Die Datenvisualisierung ist wichtig für eine explorative Datenanalyse (EDA). Ein PySpark-DataFrame eignet sich aufgrund seiner Struktur und seines Schemas im Vergleich zu RDDs perfekt für die Datenvisualisierung.
Im dritten Teil der Übung erstellst du aus dem DataFrame, den du in der vorherigen Übung erzeugt hast, ein Histogramm mit den Altersangaben aller Spieler aus Deutschland. Dazu konvertierst du zunächst den PySpark-DataFrame in einen pandas-DataFrame und verwendest die Funktion plot()
von matplotlib, um ein Dichtediagramm des Alters aller Spieler aus Deutschland zu erstellen.
Zur Erinnerung: Die SparkSession spark
, die temporäre Tabelle fifa_df_table
und der DataFrame fifa_df_germany_age
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Konvertiere
fifa_df_germany_age
in einen pandas-DataFrame namensfifa_df_germany_age_pandas
. - Erstelle ein Dichtediagramm für die Spalte „Age“ im pandas-DataFrame
fifa_df_germany_age_pandas
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()
# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()