PySpark-DataFrame unterteilen und bereinigen

Nach der ersten Durchsicht der Daten ist es oft nötig, sie zu bereinigen. Meist müssen vor allem Teilmengen erstellt, Spalten umbenannt und doppelte Zeilen entfernt werden. Die DataFrame-API von PySpark bietet dafür mehrere Operatoren. In dieser Übung besteht deine Aufgabe darin, Teilmengen mit den Spalten für Name, Geschlecht und Geburtsdatum („name“, „sex“ und „date of birth“) aus dem DataFrame people_df zu erstellen, alle doppelten Zeilen aus diesem Datensatz zu entfernen und die Anzahl der Zeilen vor und nach dem Entfernen der Duplikate zu zählen.

Zur Erinnerung: Die SparkSession spark und der DataFrame people_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Wähle die Spalten „name“, „sex“ und „date of birth“ aus people_df aus und erstelle einen DataFrame namens people_df_sub.
Gib die ersten zehn Beobachtungen im DataFrame people_df_sub aus.
Entferne doppelte Einträge aus dem DataFrame people_df_sub und erstelle den DataFrame people_df_sub_nodup.
Wie viele Zeilen gibt es vor und nach dem Entfernen der Duplikate?

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Code bearbeiten und ausführen