Selecionando o conjunto de dados ideal
Agora, você vai se livrar de alguns dos recursos desnecessários no conjunto de dados ufo. Como a coluna country foi codificada como country_enc, você pode selecioná-la e soltar as outras colunas relacionadas ao local: city country , lat, long, e state.
Você projetou as colunas month e year, portanto, não precisa mais das colunas date ou recorded. Você também padronizou a coluna seconds como seconds_log, para que possa eliminar seconds e minutes.
Você vetorizou desc, para que ele possa ser removido. Por enquanto, você manterá o type.
Você também pode se livrar da coluna length_of_time, que é desnecessária após a extração de minutes.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções do exercício
- Faça uma lista de todas as colunas a serem eliminadas,
to_drop. - Remova essas colunas de
ufo. - Use a função
words_to_filter()que você criou anteriormente; passe paravocab,vec.vocabulary_,desc_tfidfe mantenha as palavras4como o último parâmetro.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)