Restaurantpaare
In der letzten Lektion hast du den Datensatz restaurants
bereinigt, um ihn für die Erstellung einer Restaurant-Empfehlungsmaschine vorzubereiten. Du hast aus einer neuen Datenquelle einen neuen DataFrame mit dem Namen restaurants_new
gezogen, mit neuen Restaurants, anhand derer du dein Modell trainieren kannst.
Du hast die Spalten cuisine_type
und city
bereits mit den im Kurs erlernten Techniken bereinigt. Du hast jedoch Duplikate mit Tippfehlern bei Restaurantnamen gesehen, die eine Datensatzverknüpfung anstelle von Joins mit restaurants
erfordern.
In dieser Übung führst du den ersten Schritt der Datensatzverknüpfung durch und generierst mögliche Zeilenpaare zwischen restaurants
und restaurants_new
. Beide DataFrames, pandas
und recordlinkage
befinden sich in deiner Umgebung.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create an indexer and object and find possible pairs
indexer = ____
# Block pairing on cuisine_type
indexer.____(____)
# Generate pairs
pairs = indexer.____(____, ____)