Trouver des correspondances selon deux conditions
Dans cet exercice, vous allez faire correspondre deux jeux de données contenant des titres de films, avec des fautes de frappe. Dans la première table movie_titles, dix films doivent être appariés avec la seconde table movie_db. Les données proviennent de documents scannés et comportent des erreurs dues à la reconnaissance optique de caractères (OCR).
Les deux tables contiennent les colonnes title et year. Utilisez-les pour trouver les correspondances entre elles.
Créez deux fonctions d’assistance qui identifient des entrées égales ou similaires : l’une pour les titres de films (basée sur stringdist()) et l’autre pour comparer les années, en utilisant abs() (qui renvoie l’écart).
Cet exercice fait partie du cours
Expressions régulières intermédiaires en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate the string distance - it should be smaller than 3
is_string_distance_below_three <- function(left, right) {
___(left, right) < ___
}
is_string_distance_below_three("Hi there", "Hi there")