1. products.learn
  2. /
  3. Course
  4. /
  5. Nettoyage des données en Python

Connected

exercise

Remappage des catégories II

Dans le dernier exercice, vous avez déterminé que le seuil de distance pour remapper les fautes de frappe des types de cuisine 'american', 'asian' et 'italian' enregistrés dans la colonne cuisine_type devait être de 80.

Dans cet exercice, vous allez tout rassembler en trouvant les correspondances dont le score de similarité est égal ou supérieur à 80 à l’aide de la fonction extract() de fuzywuzzy.process, pour chaque type de cuisine correct, puis en remplaçant ces correspondances par celui-ci. Rappelez-vous que, lorsque vous comparez une chaîne avec un tableau de chaînes à l’aide de process.extract(), la sortie est une liste de tuples, chacun étant au format :

(plus proche correspondance, score de similarité, indice de la correspondance)

Le DataFrame restaurants est déjà dans votre environnement, et vous avez accès à une liste categories contenant les types de cuisine corrects ('italian', 'asian' et 'american').

TabInstructionHeader.heading

undefined XP
    1
    2
    3
    4
  • Retournez toutes les valeurs uniques de la colonne cuisine_type de restaurants.