Deel 1: Maak een DataFrame van een CSV-bestand

Elke 4 jaar vieren voetbalfans wereldwijd een festival genaamd “Fifa World Cup” en dan lijkt in veel landen alles te veranderen. In deze oefening in 3 delen doe je verkennende data-analyse (EDA) op de dataset "FIFA 2018 World Cup Player" met PySpark SQL, met DataFrame-bewerkingen, SQL-queries en visualisatie.

In het eerste deel laad je de FIFA 2018 World Cup Players-dataset (Fifa2018_dataset.csv), die in CSV-formaat is, in een PySpark DataFrame en bekijk je de data met basisbewerkingen op DataFrames.

Onthoud: je hebt al een SparkSession spark en een variabele file_path beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Maak een PySpark DataFrame van file_path (het pad naar het bestand Fifa2018_dataset.csv).
Print de schema van de DataFrame.
Print de eerste 10 observaties.
Hoeveel rijen staan er in de DataFrame?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))

Code bewerken en uitvoeren