CommencerCommencer gratuitement

Remaniement des catégories II

Dans le dernier exercice, vous avez déterminé que la distance seuil pour le remappage des fautes de frappe des types de cuisine 'american', 'asian' et 'italian' stockés dans la colonne cuisine_type devait être de 80.

Dans cet exercice, vous allez rassembler tous ces éléments en recherchant les correspondances dont le score de similarité est égal ou supérieur à 80 à l'aide de la fonction extract() de fuzywuzzy.process, pour chaque type de cuisine correct, et en remplaçant ces correspondances par celle-ci. Notez que lorsque vous comparez une chaîne avec un tableau de chaînes à l'aide de process.extract(), le résultat est une liste de tuples dont chacun est formaté comme suit :

(closest match, similarity score, index of match)

Le DataFrame restaurants se trouve dans votre environnement et vous avez accès à une liste categories contenant les types de cuisine appropriés ('italian', 'asian' et 'american').

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Inspect the unique values of the cuisine_type column
print(____)
Modifier et exécuter le code