CommencerCommencer gratuitement

Paires de restaurants

Dans la dernière leçon, vous avez nettoyé l'ensemble de données « restaurants » afin de le préparer pour la création d'un moteur de recommandation de restaurants. Vous disposez d'un nouveau DataFrame nommé « restaurants_new » contenant de nouveaux restaurants sur lesquels entraîner votre modèle, qui ont été extraits d'une nouvelle source de données.

Vous avez déjà nettoyé les colonnes « cuisine_type » et « city » à l'aide des techniques apprises tout au long du cours. Cependant, vous avez observé des doublons avec des fautes de frappe dans les noms de restaurants qui nécessitent un couplage d'enregistrements plutôt qu'une jointure avec l'restaurants.

Dans cet exercice, vous allez effectuer la première étape du couplage d'enregistrements et générer des paires de lignes possibles entre restaurants et restaurants_new. Les deux DataFrames, pandas et recordlinkage, se trouvent dans votre environnement.

Cet exercice fait partie du cours

Nettoyage des données dans Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an indexer and object and find possible pairs
indexer = ____

# Block pairing on cuisine_type
indexer.____(____)

# Generate pairs
pairs = indexer.____(____, ____)
Modifier et exécuter le code