PySpark-DataFrame unterteilen und bereinigen
Nach der ersten Durchsicht der Daten ist es oft nötig, sie zu bereinigen. Meist müssen vor allem Teilmengen erstellt, Spalten umbenannt und doppelte Zeilen entfernt werden. Die DataFrame-API von PySpark bietet dafür mehrere Operatoren. In dieser Übung besteht deine Aufgabe darin, Teilmengen mit den Spalten für Name, Geschlecht und Geburtsdatum („name“, „sex“ und „date of birth“) aus dem DataFrame people_df
zu erstellen, alle doppelten Zeilen aus diesem Datensatz zu entfernen und die Anzahl der Zeilen vor und nach dem Entfernen der Duplikate zu zählen.
Zur Erinnerung: Die SparkSession spark
und der DataFrame people_df
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Wähle die Spalten „name“, „sex“ und „date of birth“ aus
people_df
aus und erstelle einen DataFrame namenspeople_df_sub
. - Gib die ersten zehn Beobachtungen im DataFrame
people_df_sub
aus. - Entferne doppelte Einträge aus dem DataFrame
people_df_sub
und erstelle den DataFramepeople_df_sub_nodup
. - Wie viele Zeilen gibt es vor und nach dem Entfernen der Duplikate?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))