Erste SchritteKostenlos loslegen

PySpark-DataFrames visualisieren

Grafische Darstellungen oder Visualisierungen von Daten sind für das Verständnis und die Interpretation der Daten unerlässlich. In dieser Übung zur Datenvisualisierung gibst du zunächst die Spaltennamen im zuvor erstellten DataFrame names_df aus, konvertierst dann names_df in einen pandas-DataFrame und stellst schließlich den Inhalt als horizontales Balkendiagramm mit den Namen der Personen auf der x-Achse und ihrem Alter auf der y-Achse dar.

Zur Erinnerung: Die SparkSession spark und der DataFrame names_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Gib die Namen der Spalten im DataFrame names_df aus.
  • Konvertiere den DataFrame names_df in einen pandas-DataFrame namens df_pandas.
  • Verwende die Methode plot() von matplotlib, um ein horizontales Balkendiagramm mit 'Name' auf der x-Achse und 'Age' auf der y-Achse zu erstellen.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Check the column names of names_df
print("The column names of names_df are", names_df.____)

# Convert to Pandas DataFrame  
df_pandas = names_df.____()

# Create a horizontal bar plot
____.plot(kind='barh', x='____', y='____', colormap='winter_r')
plt.show()
Bearbeiten und Ausführen von Code