Probando distintos métodos
Perfecto, ya has aprendido varios métodos para calcular distancias entre cadenas. El método adecuado depende de muchas circunstancias, así que conviene experimentar un poco con los distintos métodos y sus parámetros para conocerlos mejor. En este ejercicio usarás el término de búsqueda "Marya Carey", una versión con error tipográfico del nombre "Mariah Carey". ¿Qué tan parecido es el nombre con error al real usando distintos métodos de distancia de cadenas?
El objetivo es encontrar parámetros que den una distancia baja entre los dos nombres descritos arriba, manteniendo al mismo tiempo una distancia grande respecto a los demás nombres de la lista que no corresponden a la persona que se está buscando.
Este ejercicio forma parte del curso
Expresiones regulares intermedias en R
Instrucciones del ejercicio
- Genera los q-gramas para longitudes de subcadena de
1y2. - Calcula la distancia de cadenas entre
searchynamesusando el método de q-gramas para longitudes de subcadena de1y2. - Calcula la distancia de cadenas entre
searchynamesusando el método"osa".
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")
# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)
# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)
# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")