Teil 1: DataFrame aus einer CSV-Datei erstellen
Alle vier Jahre feiern Fußballfans auf der ganzen Welt die FIFA-Weltmeisterschaft, die in vielen Ländern alles auf den Kopf zu stellen scheint. In dieser dreiteiligen Übung führst du mit PySpark SQL eine explorative Datenanalyse (EDA) für den Datensatz „FIFA 2018 World Cup Players“ durch und nutzt dabei DataFrame-Operationen, SQL-Abfragen und Visualisierungen.
Im ersten Teil lädst du den Datensatz „FIFA 2018 World Cup Players“ (Fifa2018_dataset.csv
) im CSV-Format in einen DataFrame von PySpark und untersuchst die Daten mit grundlegenden DataFrame-Operationen.
Zur Erinnerung: Die SparkSession spark
und die Variable file_path
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen PySpark-DataFrame aus
file_path
(das ist der Pfad zur DateiFifa2018_dataset.csv
). - Gib das DataFrame-Schema aus.
- Gib die ersten zehn Beobachtungen aus.
- Wie viele Zeilen hat der DataFrame?
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))