Blocage par paires
Zagat et Fodor's sont deux entreprises qui collectent des avis sur les restaurants. Les jeux de données zagat et fodors contiennent tous deux des informations sur divers restaurants, notamment les adresses, les numéros de téléphone et les types de cuisine. Certains restaurants figurent dans les deux jeux de données, mais n'ont pas forcément exactement le même nom ou le même numéro de téléphone. Dans ce chapitre, vous allez chercher à déterminer quels restaurants apparaissent dans les deux jeux de données.
La première étape consiste à générer des paires d’enregistrements afin de pouvoir les comparer. Dans cet exercice, vous allez d’abord générer toutes les paires possibles, puis utiliser votre colonne city nouvellement nettoyée comme variable de blocage.
zagat et fodors sont disponibles.
Cet exercice fait partie du cours
Nettoyer des données avec R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load reclin
___
# Generate all possible pairs
___