Reasignación de categorías II
En el último ejercicio, determinaste que el punto de corte de la distancia para reasignar los tipos de cocina 'american'
, 'asian'
y 'italian'
almacenados en la columna cuisine_type
debía ser 80.
En este ejercicio, vas a juntarlo todo encontrando coincidencias con puntuaciones de similitud iguales o superiores a 80 mediante la función extract()
de fuzywuzzy.process
, para cada tipo de cocina correcta, y sustituyendo estas coincidencias por ella. Recuerda que, al comparar una cadena con una matriz de cadenas mediante process.extract()
, la salida es una lista de tuplas en la que cada una tiene el siguiente formato:
(closest match, similarity score, index of match)
El DataFrame restaurants
está en tu entorno, y tienes acceso a una lista categories
que contiene los tipos de cocina correctos ('italian'
, 'asian'
, y 'american'
).
Este ejercicio forma parte del curso
Limpieza de datos en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Inspect the unique values of the cuisine_type column
print(____)