ComenzarEmpieza gratis

Probando distintos métodos

Perfecto, ya has aprendido varios métodos para calcular distancias entre cadenas. El método adecuado depende de muchas circunstancias, así que conviene experimentar un poco con los distintos métodos y sus parámetros para conocerlos mejor. En este ejercicio usarás el término de búsqueda "Marya Carey", una versión con error tipográfico del nombre "Mariah Carey". ¿Qué tan parecido es el nombre con error al real usando distintos métodos de distancia de cadenas?

El objetivo es encontrar parámetros que den una distancia baja entre los dos nombres descritos arriba, manteniendo al mismo tiempo una distancia grande respecto a los demás nombres de la lista que no corresponden a la persona que se está buscando.

Este ejercicio forma parte del curso

Expresiones regulares intermedias en R

Ver curso

Instrucciones del ejercicio

  • Genera los q-gramas para longitudes de subcadena de 1 y 2.
  • Calcula la distancia de cadenas entre search y names usando el método de q-gramas para longitudes de subcadena de 1 y 2.
  • Calcula la distancia de cadenas entre search y names usando el método "osa".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

search <- "Mariah Carey"
names <- c("M. Carey", "Mick Jagger", "Michael Jackson")

# Pass the values 1 and 2 as "q" and inspect the qgrams
qgrams("Mariah Carey", "M. Carey", q = ___)
qgrams("Mariah Carey", "M. Carey", q = ___)

# Try the qgram method on the variables search and names
stringdist(___, ___, method = "___", q = 1)
stringdist(___, ___, method = "___", q = 2)

# Try the default method (osa) on the same input and compare
stringdist(___, ___, method = "___")
Editar y ejecutar código