Einen Tippfehler in der Suche passend zuordnen

Manuelle Eingaben sind sehr fehleranfällig. Menschen vertippen sich bei allen möglichen Texten – auch bei Namen oder Adressen – und du als Data Scientist musst damit umgehen. Das Berechnen von String-Distanzen ist eine Möglichkeit, dieses Problem anzugehen.

In unserem kleinen Vektor usernames findest du drei verschiedene Namen. Deine Aufgabe ist es, den möglichsten nächstliegenden Namen zum eingegebenen Namen "Emile Brown" zu finden. Kannst du einen ähnlichen Namen im Vektor usernames finden? Verwende amatch(), um den Vektor zu durchsuchen, und gib eine Empfehlung aus, ähnlich wie du sie bei Google gesehen hast.

Diese Übung ist Teil des Kurses

<Kurs>Fortgeschrittene Reguläre Ausdrücke in R</Kurs>

Kurs ansehen

Übungsanweisungen

Lege die maximale Editierdistanz für die Funktion amatch() als 1 fest.
Verwende den Rückgabewert von amatch(), der in closest_index gespeichert ist, um den Namen in usernames auszugeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

usernames <- c("Max Power", "Emilie Brown", "Max Mustermann")

# Search usernames with a maximum edit distance of 1
closest_index <- amatch(
  x = "Emile Brown",
  table = usernames,
  ___ = ___,
  method = "lv"
)

# Print the matched name in usernames at closest_index
print(glue(
  "Did you mean {name_matched}?",
  name_matched = ___
))

Code bearbeiten und ausführen