CommencerCommencer gratuitement

Suppression des doublons

La suppression des doublons est une compétence essentielle pour obtenir des comptages précis. En effet, la plupart du temps, on évite de compter plusieurs fois la même chose. Dans cet exercice, vous allez créer de nouveaux DataFrames en utilisant des valeurs uniques provenant de sales.

sales est disponible et pandas est importé en tant que pd.

Cet exercice fait partie du cours

Manipulation de données avec pandas

Afficher le cours

Instructions

  • Supprimez les lignes de sales contenant des paires de store et type en double, enregistrez-les sous store_types et affichez l'en-tête.
  • Supprimez les lignes de sales contenant des paires de store et department en double, enregistrez-les sous store_depts et affichez l'en-tête.
  • Créez un sous-ensemble des lignes qui sont des semaines de vacances à l'aide de la colonne is_holiday, et supprimez les doublons de date, en les enregistrant sous holiday_dates.
  • Sélectionnez la colonne date de holiday_dates, et affichez.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop duplicate store/type combinations
store_types = ____
print(store_types.head())

# Drop duplicate store/department combinations
store_depts = ____
print(store_depts.head())

# Subset the rows where is_holiday is True and drop duplicate dates
holiday_dates = sales[sales[____]].drop_duplicates(____)

# Print date col of holiday_dates
print(____)
Modifier et exécuter le code