LoslegenKostenlos starten

PySpark-DataFrames visualisieren

Grafische Darstellungen oder Visualisierungen von Daten sind für das Verständnis und die Interpretation der Daten unerlässlich. In dieser Übung zur Datenvisualisierung gibst du zunächst die Spaltennamen im zuvor erstellten DataFrame names_df aus, konvertierst dann names_df in einen pandas-DataFrame und stellst schließlich den Inhalt als horizontales Balkendiagramm mit den Namen der Personen auf der x-Achse und ihrem Alter auf der y-Achse dar.

Zur Erinnerung: Die SparkSession spark und der DataFrame names_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Gib die Namen der Spalten im DataFrame names_df aus.
  • Konvertiere den DataFrame names_df in einen pandas-DataFrame namens df_pandas.
  • Verwende die Methode plot() von matplotlib, um ein horizontales Balkendiagramm mit 'Name' auf der x-Achse und 'Age' auf der y-Achse zu erstellen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Code bearbeiten und ausführen