Trouver une correspondance malgré une faute de saisie
Les saisies humaines sont très sujettes aux erreurs. On peut se tromper en tapant un nom ou une adresse, et en tant que data scientist, vous devez savoir gérer ces cas. Calculer des distances entre chaînes de caractères est une manière d’aborder ce problème.
Dans notre petit vecteur usernames, vous trouverez trois noms différents. Votre objectif est de trouver le nom le plus proche possible de l’entrée "Emile Brown". Pouvez-vous trouver un nom similaire dans le vecteur usernames ? Utilisez amatch() pour parcourir le vecteur et affichez une recommandation similaire à ce que vous avez déjà vu sur Google.
Cet exercice fait partie du cours
Expressions régulières intermédiaires en R
Instructions
- Indiquez une distance d’édition maximale de
1pour la fonctionamatch(). - Utilisez la valeur de retour de
amatch(), stockée dansclosest_index, pour afficher le nom correspondant dansusernames.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
usernames <- c("Max Power", "Emilie Brown", "Max Mustermann")
# Search usernames with a maximum edit distance of 1
closest_index <- amatch(
x = "Emile Brown",
table = usernames,
___ = ___,
method = "lv"
)
# Print the matched name in usernames at closest_index
print(glue(
"Did you mean {name_matched}?",
name_matched = ___
))