Lier ou joindre ?
Comme pour les jointures, le record linkage consiste à relier des données issues de différentes sources concernant la même entité. Mais contrairement aux jointures, le record linkage n’exige pas de correspondances exactes entre les paires de données ; il peut identifier des correspondances approchées grâce à la similarité de chaînes. C’est pourquoi le record linkage est efficace lorsqu’il n’y a pas de clé unique commune entre les sources sur laquelle vous appuyer pour relier les données, comme un identifiant unique.
Dans cet exercice, vous allez déterminer la meilleure méthode à utiliser pour résoudre chaque problème.
Cet exercice fait partie du cours
Nettoyer des données avec R
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice