ComenzarEmpieza gratis

Buscar coincidencias basadas en dos condiciones

En este ejercicio, vas a emparejar 2 conjuntos de datos con títulos de películas correspondientes, pero que también contienen errores tipográficos. En la primera tabla, movie_titles, hay diez películas que debes hacer coincidir con la segunda tabla, movie_db. Pero proceden de documentos escaneados y contienen errores del software de reconocimiento óptico de caracteres.

Ambas tablas contienen las columnas title y year. Úsalas para encontrar coincidencias entre ellas.

Crea 2 funciones auxiliares que comparen entradas que sean similares o iguales. Una para los títulos de las películas (basada en stringdist()) y otra para comparar los años, usando abs() (que devuelve la diferencia).

Este ejercicio forma parte del curso

Expresiones regulares intermedias en R

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate the string distance - it should be smaller than 3
is_string_distance_below_three <- function(left, right) {
  ___(left, right) < ___
}

is_string_distance_below_three("Hi there", "Hi there")
Editar y ejecutar código