Trovare una corrispondenza per un errore di digitazione
L’input umano è spesso soggetto a errori. Le persone sbagliano a digitare ogni tipo di testo, incluso il proprio nome o indirizzo, e tu come data scientist devi trovare un modo per gestirlo. Calcolare le distanze tra stringhe è un modo per affrontare il problema.
Nel nostro piccolo vettore usernames trovi tre nomi diversi. Il tuo compito è trovare il nome più vicino possibile al nome inserito "Emile Brown". Riesci a trovare un nome simile nel vettore usernames? Usa amatch() per cercare nel vettore e stampa un suggerimento simile a quelli che hai visto su Google.
Questo esercizio fa parte del corso
Espressioni regolari intermedie in R
Istruzioni dell'esercizio
- Specifica la distanza di editing massima per la funzione
amatch()come1. - Usa il valore di ritorno di
amatch(), salvato inclosest_index, per stampare il nome inusernames.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
usernames <- c("Max Power", "Emilie Brown", "Max Mustermann")
# Search usernames with a maximum edit distance of 1
closest_index <- amatch(
x = "Emile Brown",
table = usernames,
___ = ___,
method = "lv"
)
# Print the matched name in usernames at closest_index
print(glue(
"Did you mean {name_matched}?",
name_matched = ___
))