CommencerCommencer gratuitement

Paires de restaurants

Dans la dernière leçon, vous avez nettoyé l'ensemble de données restaurants afin de le préparer pour la création d'un moteur de recommandation de restaurants. Vous disposez d'un nouveau DataFrame nommé restaurants_new contenant de nouveaux restaurants pour entraîner votre modèle, qui ont été extraits d'une nouvelle source de données.

Vous avez déjà nettoyé les colonnes cuisine_type et city en utilisant les techniques apprises tout au long du cours. Cependant, vous avez observé des doublons avec des fautes de frappe dans les noms de restaurants qui nécessitent un couplage de données plutôt qu'une jointure avec restaurants.

Dans cet exercice, vous allez effectuer la première étape du couplage de données et générer des paires de lignes possibles entre restaurants et restaurants_new. Les deux DataFrames, pandas et recordlinkage, se trouvent dans votre environnement.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an indexer and object and find possible pairs
indexer = ____

# Block pairing on cuisine_type
indexer.____(____)

# Generate pairs
pairs = indexer.____(____, ____)
Modifier et exécuter le code