Remapeamento de categorias II
No último exercício, você determinou que o ponto de corte de distância para remapear os erros de digitação dos tipos de cozinha 'american'
, 'asian'
e 'italian'
armazenados na coluna cuisine_type
deve ser 80.
Neste exercício, você vai reunir tudo isso encontrando correspondências com pontuações de similaridade iguais ou superiores a 80 usando a função fuzywuzzy.process
's extract()
, para cada tipo de cozinha correta, e substituindo essas correspondências por ela. Lembre-se de que, ao comparar uma string com uma matriz de strings usando process.extract()
, a saída é uma lista de tuplas em que cada uma é formatada como:
(closest match, similarity score, index of match)
O DataFrame restaurants
está em seu ambiente e você tem acesso a uma lista categories
que contém os tipos de cozinha corretos ('italian'
, 'asian'
e 'american'
).
Este exercício faz parte do curso
Limpeza de dados em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Inspect the unique values of the cuisine_type column
print(____)