1. Learn
  2. /
  3. Courses
  4. /
  5. Nettoyage des données en Python

Connected

Exercise

Paires de restaurants

Dans la leçon précédente, vous avez nettoyé l’ensemble de données restaurants pour le préparer à la création d’un moteur de recommandation de restaurants. Vous disposez maintenant d’un nouveau DataFrame nommé restaurants_new, contenant de nouveaux restaurants pour entraîner votre modèle, extrait d’une nouvelle source de données.

Vous avez déjà nettoyé les colonnes cuisine_type et city en utilisant les techniques vues dans le cours. Cependant, vous avez repéré des doublons avec des fautes de frappe dans les noms de restaurants, ce qui nécessite un couplage d’enregistrements (record linkage) plutôt qu’une jointure avec restaurants.

Dans cet exercice, vous allez effectuer la première étape du couplage d’enregistrements et générer des paires possibles de lignes entre restaurants et restaurants_new. Les deux DataFrames, ainsi que pandas et recordlinkage, sont disponibles dans votre environnement.

Instructions 1/2

undefined XP
    1
    2
  • Instanciez un objet d’indexation en utilisant la fonction Index() de recordlinkage.
  • Bloquez l’appariement sur cuisine_type à l’aide de la méthode .block() de indexer.
  • Générez les paires en indexant restaurants puis restaurants_new, dans cet ordre.