CommencerCommencer gratuitement

Le seuil

Dans cet exercice, et tout au long de ce chapitre, vous travaillerez avec le DataFrame restaurants, qui contient des données sur divers restaurants. Votre objectif final est de créer un moteur de recommandation de restaurants, mais vous devez d'abord nettoyer vos données.

Cette version de restaurants a été compilée à partir de nombreuses sources, dont la colonne « cuisine_type » (Type de cuisine) contient de nombreuses erreurs typographiques et ne devrait inclure que les types de cuisine suivants : italian, american et asian. Il existe tellement de catégories uniques que leur remappage manuel n'est pas évolutif, et il est préférable d'utiliser plutôt la similarité des chaînes de caractères.

Avant de procéder, il est recommandé de définir le seuil de similarité à l'aide de la fonction process.extract() de l'thefuzz, en déterminant le score de similarité de la faute de frappe la plus éloignée dans chaque catégorie.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Modifier et exécuter le code