Einen Tippfehler in der Suche passend zuordnen
Manuelle Eingaben sind sehr fehleranfällig. Menschen vertippen sich bei allen möglichen Texten – auch bei Namen oder Adressen – und du als Data Scientist musst damit umgehen. Das Berechnen von String-Distanzen ist eine Möglichkeit, dieses Problem anzugehen.
In unserem kleinen Vektor usernames findest du drei verschiedene Namen. Deine Aufgabe ist es, den möglichsten nächstliegenden Namen zum eingegebenen Namen "Emile Brown" zu finden. Kannst du einen ähnlichen Namen im Vektor usernames finden? Verwende amatch(), um den Vektor zu durchsuchen, und gib eine Empfehlung aus, ähnlich wie du sie bei Google gesehen hast.
Diese Übung ist Teil des Kurses
Fortgeschrittene Reguläre Ausdrücke in R
Anleitung zur Übung
- Lege die maximale Editierdistanz für die Funktion
amatch()als1fest. - Verwende den Rückgabewert von
amatch(), der inclosest_indexgespeichert ist, um den Namen inusernamesauszugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
usernames <- c("Max Power", "Emilie Brown", "Max Mustermann")
# Search usernames with a maximum edit distance of 1
closest_index <- amatch(
x = "Emile Brown",
table = usernames,
___ = ___,
method = "lv"
)
# Print the matched name in usernames at closest_index
print(glue(
"Did you mean {name_matched}?",
name_matched = ___
))