CommencerCommencer gratuitement

Première partie : Créer un DataFrame à partir d’un fichier CSV

Tous les quatre ans, les amateurs de football du monde entier célèbrent la Coupe du monde de la Fifa et, à cette occasion, tout semble changer dans de nombreux pays. Dans cet exercice en 3 parties, vous ferez de l'analyse exploratoire de données (EDA) sur le jeu de données « FIFA 2018 World Cup Player » en utilisant PySpark SQL, ce qui impliquera des opérations de DataFrame, des requêtes SQL et de la visualisation.

Dans la première partie, vous allez charger l’ensemble de données des joueurs de la Coupe du monde FIFA 2018 (Fifa2018_dataset.csv), qui est au format CSV, dans un DataFrame de PySpark, et inspecter les données à l'aide d'opérations DataFrame de base.

Rappelez-vous qu’une SparkSession spark et une variable file_path sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Créez un DataFrame PySpark à partir de file_path (qui est le chemin d'accès au fichier Fifa2018_dataset.csv).
  • Affichez le schéma du DataFrame.
  • Affichez les 10 premières observations.
  • Combien de lignes y a-t-il dans le DataFrame ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))
Modifier et exécuter le code