ComenzarEmpieza gratis

El punto de corte

En este ejercicio, y a lo largo de todo el capítulo, trabajarás con el DataFrame restaurants, que contiene datos sobre varios restaurantes. Tu objetivo final es crear un motor de recomendación de restaurantes, pero primero tienes que limpiar tus datos.

Esta versión de restaurants ha sido recopilada de muchas fuentes, en las que la columna cuisine_type está plagada de erratas, y solo debería contener los tipos de cocina italian, american y asian. Hay tantas categorías únicas que reasignarlas manualmente no es escalable, y en su lugar es mejor utilizar la similitud de cadenas.

Antes de hacerlo, debes establecer el punto de corte para la puntuación de similitud utilizando la función thefuzz's process.extract() hallando la puntuación de similitud de la errata más distante de cada categoría.

Este ejercicio forma parte del curso

Limpieza de datos en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Editar y ejecutar código