Daten in einem PySpark-DataFrame inspizieren
Die Durchsicht von Daten ist sehr wichtig, bevor du sie für Analysen und zum Plotten, Modellieren, Trainieren usw. nutzt. In dieser einfachen Übung prüfst du die Daten im DataFrame people_df
, den du in der vorherigen Übung erstellt hast, indem du grundlegende DataFrame-Operatoren verwendest.
Zur Erinnerung: Die SparkSession spark
und der DataFrame people_df
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Gib die ersten zehn Beobachtungen im DataFrame
people_df
aus. - Zähle die Anzahl der Zeilen im DataFrame
people_df
. - Wie viele Spalten hat der DataFrame
people_df
und wie heißen sie?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Print the first 10 observations
people_df.____(10)
# Count the number of rows
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))
# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))