Aan de slagGa gratis aan de slag

Deel 1: Maak een DataFrame van een CSV-bestand

Elke 4 jaar vieren voetbalfans wereldwijd een festival genaamd “Fifa World Cup” en dan lijkt in veel landen alles te veranderen. In deze oefening in 3 delen doe je verkennende data-analyse (EDA) op de dataset "FIFA 2018 World Cup Player" met PySpark SQL, met DataFrame-bewerkingen, SQL-queries en visualisatie.

In het eerste deel laad je de FIFA 2018 World Cup Players-dataset (Fifa2018_dataset.csv), die in CSV-formaat is, in een PySpark DataFrame en bekijk je de data met basisbewerkingen op DataFrames.

Onthoud: je hebt al een SparkSession spark en een variabele file_path beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een PySpark DataFrame van file_path (het pad naar het bestand Fifa2018_dataset.csv).
  • Print de schema van de DataFrame.
  • Print de eerste 10 observaties.
  • Hoeveel rijen staan er in de DataFrame?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))
Code bewerken en uitvoeren