Edit-Distanzen vs. Q-Gram-Methoden
Die Ergebnisse verschiedener String-Distanz-Methoden können stark variieren. Bei der einen Methode liegen die Werte unter eins, bei einer anderen über 10. Deshalb ist es hilfreich, die Funktionsweise jeder Methode zu kennen.
Du hast sechs Methoden kennengelernt. Drei davon arbeiten mit einer „Edit-Distanz“ und messen, wie viele Bearbeitungsschritte nötig sind, um den ersten String in den zweiten zu überführen.
Die anderen drei funktionieren anders: Sie zerlegen einen String in Teilstrings bestimmter Länge – sogenannte Q-Grams (manchmal auch N-Grams genannt). Erinnerst du dich, welche Methoden das waren?
Diese Übung ist Teil des Kurses
Fortgeschrittene Reguläre Ausdrücke in R
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten