CommencerCommencer gratuitement

Trouver une correspondance malgré une faute de saisie

Les saisies humaines sont très sujettes aux erreurs. On peut se tromper en tapant un nom ou une adresse, et en tant que data scientist, vous devez savoir gérer ces cas. Calculer des distances entre chaînes de caractères est une manière d’aborder ce problème.

Dans notre petit vecteur usernames, vous trouverez trois noms différents. Votre objectif est de trouver le nom le plus proche possible de l’entrée "Emile Brown". Pouvez-vous trouver un nom similaire dans le vecteur usernames ? Utilisez amatch() pour parcourir le vecteur et affichez une recommandation similaire à ce que vous avez déjà vu sur Google.

Cet exercice fait partie du cours

Expressions régulières intermédiaires en R

Afficher le cours

Instructions

  • Indiquez une distance d’édition maximale de 1 pour la fonction amatch().
  • Utilisez la valeur de retour de amatch(), stockée dans closest_index, pour afficher le nom correspondant dans usernames.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

usernames <- c("Max Power", "Emilie Brown", "Max Mustermann")

# Search usernames with a maximum edit distance of 1
closest_index <- amatch(
  x = "Emile Brown",
  table = usernames,
  ___ = ___,
  method = "lv"
)

# Print the matched name in usernames at closest_index
print(glue(
  "Did you mean {name_matched}?",
  name_matched = ___
))
Modifier et exécuter le code