CommencerCommencer gratuitement

Remapper les catégories II

Dans l'exercice précédent, vous avez déterminé que la distance de coupure pour le remappage des fautes de frappe de 'american', 'asian' et 'italian' types de cuisine stockés dans la colonne cuisine_type devait être de 80.

Dans cet exercice, vous allez rassembler tous les éléments en recherchant les correspondances dont le score de similarité est égal ou supérieur à 80 à l'aide de la fonction « extract() » d'fuzywuzzy.process, pour chaque type de cuisine correct, puis en remplaçant ces correspondances par celles-ci. N'oubliez pas que lorsque vous comparez une chaîne avec un tableau de chaînes à l'aide de l'process.extract(), le résultat est une liste de tuples dont chacun est formaté comme suit :

(closest match, similarity score, index of match)

Le DataFrame « restaurants » se trouve dans votre environnement et vous avez accès à une liste d'categories s contenant les types de cuisine appropriés ('italian', 'asian' et 'american').

Cet exercice fait partie du cours

Nettoyage des données dans Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Inspect the unique values of the cuisine_type column
print(____)
Modifier et exécuter le code