Mettre le tout en pratique
Dans ce chapitre, vous avez nettoyé la colonne city de zagat à l’aide de la similarité de chaînes, et vous avez aussi généré et comparé des paires de restaurants issus de zagat et fodors. La fin est proche : il ne reste plus qu’à attribuer un score, sélectionner les paires, puis relier les données. Vous pourrez ainsi commencer votre analyse très rapidement !
reclin et dplyr sont chargés, et zagat et fodors sont disponibles.
Cet exercice fait partie du cours
Nettoyer des données avec R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create pairs
pair_blocking(zagat, fodors, blocking_var = "city") %>%
# Compare pairs
compare_pairs(by = c("name", "addr"), default_comparator = jaro_winkler()) %>%
# Score pairs
___