Le seuil
Dans cet exercice, et tout au long de ce chapitre, vous travaillerez avec le DataFrame restaurants
, qui contient des données sur divers restaurants. Votre objectif final est de créer un moteur de recommandation de restaurants, mais vous devez d'abord nettoyer vos données.
Cette version de restaurants
a été compilée à partir de nombreuses sources, dont la colonne « cuisine_type
» (Type de cuisine) contient de nombreuses erreurs typographiques et ne devrait inclure que les types de cuisine suivants : italian
, american
et asian
. Il existe tellement de catégories uniques que leur remappage manuel n'est pas évolutif, et il est préférable d'utiliser plutôt la similarité des chaînes de caractères.
Avant de procéder, il est recommandé de définir le seuil de similarité à l'aide de la fonction process.extract()
de l'thefuzz
, en déterminant le score de similarité de la faute de frappe la plus éloignée dans chaque catégorie.
Cet exercice fait partie du cours
Nettoyage des données en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import process from thefuzz
____
# Store the unique values of cuisine_type in unique_types
unique_types = ____
# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))
# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))
# Calculate similarity of 'italian' to all values of unique_types
print(____)