Suppression des doublons
La suppression des doublons est une compétence essentielle pour obtenir des comptages précis. En effet, la plupart du temps, on évite de compter plusieurs fois la même chose. Dans cet exercice, vous allez créer de nouveaux DataFrames en utilisant des valeurs uniques provenant de sales
.
sales
est disponible et pandas
est importé en tant que pd
.
Cet exercice fait partie du cours
Manipulation de données avec pandas
Instructions
- Supprimez les lignes de
sales
contenant des paires destore
ettype
en double, enregistrez-les sousstore_types
et affichez l'en-tête. - Supprimez les lignes de
sales
contenant des paires destore
etdepartment
en double, enregistrez-les sousstore_depts
et affichez l'en-tête. - Créez un sous-ensemble des lignes qui sont des semaines de vacances à l'aide de la colonne
is_holiday
, et supprimez les doublons dedate
, en les enregistrant sousholiday_dates
. - Sélectionnez la colonne
date
deholiday_dates
, et affichez.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Drop duplicate store/type combinations
store_types = ____
print(store_types.head())
# Drop duplicate store/department combinations
store_depts = ____
print(store_depts.head())
# Subset the rows where is_holiday is True and drop duplicate dates
holiday_dates = sales[sales[____]].drop_duplicates(____)
# Print date col of holiday_dates
print(____)