Deel 1: Maak een DataFrame van een CSV-bestand
Elke 4 jaar vieren voetbalfans wereldwijd een festival genaamd “Fifa World Cup” en dan lijkt in veel landen alles te veranderen. In deze oefening in 3 delen doe je verkennende data-analyse (EDA) op de dataset "FIFA 2018 World Cup Player" met PySpark SQL, met DataFrame-bewerkingen, SQL-queries en visualisatie.
In het eerste deel laad je de FIFA 2018 World Cup Players-dataset (Fifa2018_dataset.csv), die in CSV-formaat is, in een PySpark DataFrame en bekijk je de data met basisbewerkingen op DataFrames.
Onthoud: je hebt al een SparkSession spark en een variabele file_path beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een PySpark DataFrame van
file_path(het pad naar het bestandFifa2018_dataset.csv). - Print de schema van de DataFrame.
- Print de eerste 10 observaties.
- Hoeveel rijen staan er in de DataFrame?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)
# Check the schema of columns
fifa_df.____()
# Show the first 10 observations
fifa_df.____(____)
# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))