ComeçarComece gratuitamente

O ponto de corte

Neste exercício, e ao longo deste capítulo, você trabalhará com o DataFrame restaurants, que tem dados sobre vários restaurantes. Seu objetivo final é criar um mecanismo de recomendação de restaurantes, mas primeiro você precisa limpar seus dados.

Esta versão de restaurants foi coletada de várias fontes, onde a coluna cuisine_type está repleta de erros de digitação e deve conter apenas os tipos de cozinha italian, american e asian. Há tantas categorias exclusivas que o remapeamento manual não é escalonável e, em vez disso, é melhor usar a similaridade de strings.

Antes de fazer isso, você deseja estabelecer o ponto de corte para a pontuação de similaridade usando a função thefuzz's process.extract(), encontrando a pontuação de similaridade do erro de digitação mais distante de cada categoria.

Este exercício faz parte do curso

Limpeza de dados em Python

Ver Curso

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import process from thefuzz
____

# Store the unique values of cuisine_type in unique_types
unique_types = ____

# Calculate similarity of 'asian' to all values of unique_types
print(process.____('____', ____, limit = len(____)))

# Calculate similarity of 'american' to all values of unique_types
print(____('____', ____, ____))

# Calculate similarity of 'italian' to all values of unique_types
print(____)
Editar e executar código