Paires de restaurants
Dans la dernière leçon, vous avez nettoyé l'ensemble de données restaurants afin de le préparer pour la création d'un moteur de recommandation de restaurants. Vous disposez d'un nouveau DataFrame nommé restaurants_new contenant de nouveaux restaurants pour entraîner votre modèle, qui ont été extraits d'une nouvelle source de données.
Vous avez déjà nettoyé les colonnes cuisine_type et city en utilisant les techniques apprises tout au long du cours. Cependant, vous avez observé des doublons avec des fautes de frappe dans les noms de restaurants qui nécessitent un couplage de données plutôt qu'une jointure avec restaurants.
Dans cet exercice, vous allez effectuer la première étape du couplage de données et générer des paires de lignes possibles entre restaurants et restaurants_new. Les deux DataFrames, pandas et recordlinkage, se trouvent dans votre environnement.
Cet exercice fait partie du cours
Nettoyage des données en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an indexer and object and find possible pairs
indexer = ____
# Block pairing on cuisine_type
indexer.____(____)
# Generate pairs
pairs = indexer.____(____, ____)