Pair blocking
Zagat e Fodor's sono entrambe aziende che raccolgono recensioni di ristoranti. I dataset zagat e fodors contengono informazioni su vari ristoranti, tra cui indirizzi, numeri di telefono e tipi di cucina. Alcuni ristoranti compaiono in entrambi i dataset, ma potrebbero non avere esattamente lo stesso nome o numero di telefono riportato. In questo capitolo, lavorerai per capire quali ristoranti compaiono in entrambi i dataset.
Il primo passo verso questo obiettivo è generare coppie di record da poter confrontare. In questo esercizio, genererai prima tutte le coppie possibili e poi userai la tua colonna city appena ripulita come variabile di blocco.
zagat e fodors sono disponibili.
Questo esercizio fa parte del corso
Pulizia dei dati in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load reclin
___
# Generate all possible pairs
___