Selecionando o conjunto de dados ideal

Agora, você vai se livrar de alguns dos recursos desnecessários no conjunto de dados ufo. Como a coluna country foi codificada como country_enc, você pode selecioná-la e soltar as outras colunas relacionadas ao local: city country , lat, long, e state.

Você projetou as colunas month e year, portanto, não precisa mais das colunas date ou recorded. Você também padronizou a coluna seconds como seconds_log, para que possa eliminar seconds e minutes.

Você vetorizou desc, para que ele possa ser removido. Por enquanto, você manterá o type.

Você também pode se livrar da coluna length_of_time, que é desnecessária após a extração de minutes.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver curso

Instruções do exercício

Faça uma lista de todas as colunas a serem eliminadas, to_drop.
Remova essas colunas de ufo.
Use a função words_to_filter() que você criou anteriormente; passe para vocab, vec.vocabulary_, desc_tfidf e mantenha as palavras 4 como o último parâmetro.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Editar e executar o código