Le regroupement des catégories
L'un des problèmes soulevés par les utilisateurs d'un site web local dédié à l'adoption de chiens est qu'il y a trop d'options. En parcourant les différentes races de chiens, ils se sentent perdus face à la multitude de choix qui s'offre à eux. Pour simplifier certaines données, vous passez en revue chaque colonne et regrouper les données si nécessaire. Afin de conserver les données d'origine, vous allez créer de nouvelles colonnes mises à jour dans l'ensemble de données « dogs
». Vous commencerez par la colonne « coat
» (nom du fichier). Le tableau des fréquences est présenté ci-dessous :
short 1969
medium 565
wirehaired 220
long 180
medium-long 3
Cet exercice fait partie du cours
Utilisation de données catégorielles dans Python
Instructions
- Créez un dictionnaire nommé «
update_coats
» pour associer les adresseswirehaired
etmedium-long
à l'adressemedium
. - Regroupez les catégories énumérées dans ce nouveau dictionnaire et enregistrez-les dans une nouvelle colonne,
coat_collapsed
. - Convertissez cette nouvelle colonne en une série catégorielle.
- Imprimez le tableau des fréquences de cette nouvelle série.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create the update_coats dictionary
____
# Create a new column, coat_collapsed
dogs["coat_collapsed"] = ____
# Convert the column to categorical
____
# Print the frequency table
print(____)