IniziaInizia gratis

Pair blocking

Zagat e Fodor's sono entrambe aziende che raccolgono recensioni di ristoranti. I dataset zagat e fodors contengono informazioni su vari ristoranti, tra cui indirizzi, numeri di telefono e tipi di cucina. Alcuni ristoranti compaiono in entrambi i dataset, ma potrebbero non avere esattamente lo stesso nome o numero di telefono riportato. In questo capitolo, lavorerai per capire quali ristoranti compaiono in entrambi i dataset.

Il primo passo verso questo obiettivo è generare coppie di record da poter confrontare. In questo esercizio, genererai prima tutte le coppie possibili e poi userai la tua colonna city appena ripulita come variabile di blocco.

zagat e fodors sono disponibili.

Questo esercizio fa parte del corso

Pulizia dei dati in R

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load reclin
___

# Generate all possible pairs
___
Modifica ed esegui il codice