Verschiedene Methoden ausprobieren
Perfekt, du hast bereits mehrere Methoden zur Berechnung von String-Distanzen kennengelernt. Welche Methode du verwendest, hängt von vielen Faktoren ab. Es ist daher sinnvoll, ein wenig mit den Methoden und ihren Parametern zu spielen, um sie besser kennenzulernen. In dieser Übung verwendest du den Suchbegriff "Marya Carey" – eine falsch geschriebene Version des Namens "Mariah Carey". Wie ähnlich ist der Tippfehler dem richtigen Namen bei verschiedenen String-Distanz-Methoden?
Ziel ist es, Parameter zu finden, die für die beiden oben beschriebenen Namen eine geringe Distanz liefern, während sie zu den anderen Namen in der Liste, die nicht die gesuchte Person sind, eine große Distanz beibehalten.
Diese Übung ist Teil des Kurses
Fortgeschrittene Reguläre Ausdrücke in R
Anleitung zur Übung
- Erzeuge die Q-Gramme für Teilstring-Längen von
1und2. - Berechne die String-Distanz zwischen
searchundnamesmit der Q-Gramm-Methode für Teilstring-Längen von1und2. - Berechne die String-Distanz zwischen
searchundnamesmit der Methode"osa".
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")
# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)
# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)
# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")