LoslegenKostenlos loslegen

Verschiedene Methoden ausprobieren

Perfekt, du hast bereits mehrere Methoden zur Berechnung von String-Distanzen kennengelernt. Welche Methode du verwendest, hängt von vielen Faktoren ab. Es ist daher sinnvoll, ein wenig mit den Methoden und ihren Parametern zu spielen, um sie besser kennenzulernen. In dieser Übung verwendest du den Suchbegriff "Marya Carey" – eine falsch geschriebene Version des Namens "Mariah Carey". Wie ähnlich ist der Tippfehler dem richtigen Namen bei verschiedenen String-Distanz-Methoden?

Ziel ist es, Parameter zu finden, die für die beiden oben beschriebenen Namen eine geringe Distanz liefern, während sie zu den anderen Namen in der Liste, die nicht die gesuchte Person sind, eine große Distanz beibehalten.

Diese Übung ist Teil des Kurses

Fortgeschrittene Reguläre Ausdrücke in R

Kurs anzeigen

Anleitung zur Übung

  • Erzeuge die Q-Gramme für Teilstring-Längen von 1 und 2.
  • Berechne die String-Distanz zwischen search und names mit der Q-Gramm-Methode für Teilstring-Längen von 1 und 2.
  • Berechne die String-Distanz zwischen search und names mit der Methode "osa".

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")

# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)

# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)

# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")
Code bearbeiten und ausführen