Paires de restaurants
Dans la dernière leçon, vous avez nettoyé l'ensemble de données « restaurants
» afin de le préparer pour la création d'un moteur de recommandation de restaurants. Vous disposez d'un nouveau DataFrame nommé « restaurants_new
» contenant de nouveaux restaurants sur lesquels entraîner votre modèle, qui ont été extraits d'une nouvelle source de données.
Vous avez déjà nettoyé les colonnes « cuisine_type
» et « city
» à l'aide des techniques apprises tout au long du cours. Cependant, vous avez observé des doublons avec des fautes de frappe dans les noms de restaurants qui nécessitent un couplage d'enregistrements plutôt qu'une jointure avec l'restaurants
.
Dans cet exercice, vous allez effectuer la première étape du couplage d'enregistrements et générer des paires de lignes possibles entre restaurants
et restaurants_new
. Les deux DataFrames, pandas
et recordlinkage
, se trouvent dans votre environnement.
Cet exercice fait partie du cours
Nettoyage des données dans Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an indexer and object and find possible pairs
indexer = ____
# Block pairing on cuisine_type
indexer.____(____)
# Generate pairs
pairs = indexer.____(____, ____)