CommencerCommencer gratuitement

Inférer et filtrer

Imaginez que vous disposez d’un jeu de données de recensement dont vous savez qu’il contient un en-tête et un schéma. Chargeons ce jeu de données et laissons PySpark inférer le schéma. Que voyez-vous si vous filtrez les adultes de plus de 40 ans ?

N’oubliez pas : une SparkSession appelée spark est déjà disponible dans votre espace de travail !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Chargez le fichier JSON adults.json.
  • Filtrez les données pour ne garder que les adultes dont l’age est supérieur à 40.
  • Affichez les résultats.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Modifier et exécuter le code