Selecionando o conjunto de dados ideal
Agora é hora de remover alguns recursos desnecessários do conjunto de dados ufo. Como a coluna country foi codificada como country_enc, você pode mantê-la e descartar as outras colunas relacionadas à localização: city, country, lat, long e state.
Você criou as colunas month e year, então não precisa mais de date ou recorded. Você também padronizou a coluna seconds como seconds_log, então pode descartar seconds e minutes.
Você vetorizou desc, então ela pode ser removida. Por enquanto, você manterá type.
Você também pode remover a coluna length_of_time, que se torna desnecessária após extrair minutes.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Crie uma lista com todas as colunas a serem descartadas,
to_drop. - Remova essas colunas de
ufo. - Use a função
words_to_filter()que você criou anteriormente; passevocab,vec.vocabulary_,desc_tfidfe mantenha as4palavras principais como último parâmetro.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)