Gérer les données manquantes avec fill et drop
Oh là là… Ce jeu de données contient beaucoup de valeurs manquantes ! Nettoyons tout ça. Avec le fichier CSV déjà chargé, supprimez les lignes contenant au moins une valeur nulle, puis affichez le résultat.
N’oubliez pas : une SparkSession appelée spark est déjà disponible dans votre espace de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Supprimez toutes les lignes contenant des valeurs nulles dans le DataFrame
census_df. - Affichez le DataFrame obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Drop rows with any nulls
census_cleaned = census_df.____
# Show the result
census_cleaned.____