Pair-Blocking
Zagat und Fodor's sind Unternehmen, die Restaurantbewertungen sammeln. Die Datensätze zagat und fodors enthalten Informationen zu verschiedenen Restaurants, darunter Adressen, Telefonnummern und Küchenrichtungen. Manche Restaurants kommen in beiden Datensätzen vor, haben dort aber nicht unbedingt exakt denselben Namen oder dieselbe Telefonnummer. In diesem Kapitel arbeitest du darauf hin, herauszufinden, welche Restaurants in beiden Datensätzen enthalten sind.
Der erste Schritt auf dem Weg dorthin ist, Paare von Einträgen zu erzeugen, damit du sie vergleichen kannst. In dieser Übung erzeugst du zunächst alle möglichen Paare und nutzt dann deine frisch bereinigte Spalte city als Blocking-Variable.
zagat und fodors stehen zur Verfügung.
Diese Übung ist Teil des Kurses
Datenbereinigung in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load reclin
___
# Generate all possible pairs
___