El punto de corte
En este ejercicio, y a lo largo de todo el capítulo, trabajarás con el DataFrame restaurants
, que contiene datos sobre varios restaurantes. Tu objetivo final es crear un motor de recomendación de restaurantes, pero primero tienes que limpiar tus datos.
Esta versión de restaurants
ha sido recopilada de muchas fuentes, en las que la columna cuisine_type
está plagada de erratas, y solo debería contener los tipos de cocina italian
, american
y asian
. Hay tantas categorías únicas que reasignarlas manualmente no es escalable, y en su lugar es mejor utilizar la similitud de cadenas.
Antes de hacerlo, debes establecer el punto de corte para la puntuación de similitud utilizando la función thefuzz
's process.extract()
hallando la puntuación de similitud de la errata más distante de cada categoría.
Este ejercicio forma parte del curso
Limpieza de datos en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import process from thefuzz
____
# Store the unique values of cuisine_type in unique_types
unique_types = ____
# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))
# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))
# Calculate similarity of 'italian' to all values of unique_types
print(____)