LoslegenKostenlos loslegen

Daten in einem PySpark-DataFrame inspizieren

Die Durchsicht von Daten ist sehr wichtig, bevor du sie für Analysen und zum Plotten, Modellieren, Trainieren usw. nutzt. In dieser einfachen Übung prüfst du die Daten im DataFrame people_df, den du in der vorherigen Übung erstellt hast, indem du grundlegende DataFrame-Operatoren verwendest.

Zur Erinnerung: Die SparkSession spark und der DataFrame people_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Gib die ersten zehn Beobachtungen im DataFrame people_df aus.
  • Zähle die Anzahl der Zeilen im DataFrame people_df.
  • Wie viele Spalten hat der DataFrame people_df und wie heißen sie?

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Print the first 10 observations 
people_df.____(10)

# Count the number of rows 
print("There are {} rows in the people_df DataFrame.".format(people_df.____()))

# Count the number of columns and print their names
print("There are {} columns in the people_df DataFrame and their names are {}".format(len(people_df.____), people_df.____))
Code bearbeiten und ausführen