1. products.learn
  2. /
  3. Course
  4. /
  5. Nettoyage des données en Python

Connected

exercise

Le point de coupure

Dans cet exercice, et tout au long de ce chapitre, vous allez travailler avec le DataFrame restaurants, qui contient des données sur divers restaurants. Votre objectif final est de créer un moteur de recommandation de restaurants, mais vous devez d’abord nettoyer vos données.

Cette version de restaurants provient de plusieurs sources, et la colonne cuisine_type est truffée de fautes de frappe; elle ne devrait pourtant contenir que les types de cuisine italian, american et asian. Il y a tellement de catégories uniques que les remapper à la main n’est pas viable; mieux vaut utiliser la similarité de chaînes.

Avant de le faire, vous voulez déterminer le point de coupure du score de similarité en utilisant la fonction process.extract() de thefuzz, en trouvant le score de similarité de la faute de frappe la plus éloignée pour chaque catégorie.

TabInstructionHeader.heading

undefined XP
    1
    2
  • Importez process depuis thefuzz.
  • Stockez les valeurs uniques de cuisine_type dans unique_types.
  • Calculez la similarité de 'asian', 'american' et 'italian' par rapport à toutes les valeurs possibles de cuisine_type à l’aide de process.extract(), en retournant toutes les correspondances possibles.