Paren van restaurants
In de vorige les heb je de restaurants-gegevensset opgeschoond om die klaar te maken voor het bouwen van een aanbevelingsengine voor restaurants. Je hebt een nieuw DataFrame restaurants_new met nieuwe restaurants om je model op te trainen, dat is gescraped uit een nieuwe bron.
Je hebt de kolommen cuisine_type en city al schoongemaakt met de technieken uit de cursus. Maar je zag duplicaten met typfouten in restaurantnamen die recordlinkage vereisen in plaats van joins met restaurants.
In deze oefening voer je de eerste stap van recordlinkage uit en genereer je mogelijke paren rijen tussen restaurants en restaurants_new. Beide DataFrames, pandas en recordlinkage staan klaar in je omgeving.
Deze oefening maakt deel uit van de cursus
Data opschonen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an indexer and object and find possible pairs
indexer = ____
# Block pairing on cuisine_type
indexer.____(____)
# Generate pairs
pairs = indexer.____(____, ____)