Selecionando o conjunto de dados ideal
Agora, você vai se livrar de alguns dos recursos desnecessários no conjunto de dados ufo
. Como a coluna country
foi codificada como country_enc
, você pode selecioná-la e soltar as outras colunas relacionadas ao local: city
country
, lat
, long
, e state
.
Você projetou as colunas month
e year
, portanto, não precisa mais das colunas date
ou recorded
. Você também padronizou a coluna seconds
como seconds_log
, para que possa eliminar seconds
e minutes
.
Você vetorizou desc
, para que ele possa ser removido. Por enquanto, você manterá o type
.
Você também pode se livrar da coluna length_of_time
, que é desnecessária após a extração de minutes
.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
- Faça uma lista de todas as colunas a serem eliminadas,
to_drop
. - Remova essas colunas de
ufo
. - Use a função
words_to_filter()
que você criou anteriormente; passe paravocab
,vec.vocabulary_
,desc_tfidf
e mantenha as palavras4
como o último parâmetro.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Make a list of features to drop
to_drop = [____]
# Drop those features
ufo_dropped = ufo.____
# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)