Remapper les catégories II
Dans l'exercice précédent, vous avez déterminé que la distance de coupure pour le remappage des fautes de frappe de 'american'
, 'asian'
et 'italian'
types de cuisine stockés dans la colonne cuisine_type
devait être de 80.
Dans cet exercice, vous allez rassembler tous les éléments en recherchant les correspondances dont le score de similarité est égal ou supérieur à 80 à l'aide de la fonction « extract()
» d'fuzywuzzy.process
, pour chaque type de cuisine correct, puis en remplaçant ces correspondances par celles-ci. N'oubliez pas que lorsque vous comparez une chaîne avec un tableau de chaînes à l'aide de l'process.extract()
, le résultat est une liste de tuples dont chacun est formaté comme suit :
(closest match, similarity score, index of match)
Le DataFrame « restaurants
» se trouve dans votre environnement et vous avez accès à une liste d'categories
s contenant les types de cuisine appropriés ('italian'
, 'asian'
et 'american'
).
Cet exercice fait partie du cours
Nettoyage des données dans Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Inspect the unique values of the cuisine_type column
print(____)