Teil 3: Datenvisualisierung

Die Datenvisualisierung ist wichtig für eine explorative Datenanalyse (EDA). Ein PySpark-DataFrame eignet sich aufgrund seiner Struktur und seines Schemas im Vergleich zu RDDs perfekt für die Datenvisualisierung.

Im dritten Teil der Übung erstellst du aus dem DataFrame, den du in der vorherigen Übung erzeugt hast, ein Histogramm mit den Altersangaben aller Spieler aus Deutschland. Dazu konvertierst du zunächst den PySpark-DataFrame in einen pandas-DataFrame und verwendest die Funktion plot() von matplotlib, um ein Dichtediagramm des Alters aller Spieler aus Deutschland zu erstellen.

Zur Erinnerung: Die SparkSession spark, die temporäre Tabelle fifa_df_table und der DataFrame fifa_df_germany_age sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Konvertiere fifa_df_germany_age in einen pandas-DataFrame namens fifa_df_germany_age_pandas.
Erstelle ein Dichtediagramm für die Spalte „Age“ im pandas-DataFrame fifa_df_germany_age_pandas.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Convert fifa_df to fifa_df_germany_age_pandas DataFrame
fifa_df_germany_age_pandas = fifa_df_germany_age.____()

# Plot the 'Age' density of Germany Players
____.plot(kind='density')
plt.show()

Code bearbeiten und ausführen