Selecionando o conjunto de dados ideal

Agora é hora de remover alguns recursos desnecessários do conjunto de dados ufo. Como a coluna country foi codificada como country_enc, você pode mantê-la e descartar as outras colunas relacionadas à localização: city, country, lat, long e state.

Você criou as colunas month e year, então não precisa mais de date ou recorded. Você também padronizou a coluna seconds como seconds_log, então pode descartar seconds e minutes.

Você vetorizou desc, então ela pode ser removida. Por enquanto, você manterá type.

Você também pode remover a coluna length_of_time, que se torna desnecessária após extrair minutes.

Este exercício faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercício

Crie uma lista com todas as colunas a serem descartadas, to_drop.
Remova essas colunas de ufo.
Use a função words_to_filter() que você criou anteriormente; passe vocab, vec.vocabulary_, desc_tfidf e mantenha as 4 palavras principais como último parâmetro.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Make a list of features to drop
to_drop = [____]

# Drop those features
ufo_dropped = ufo.____

# Let's also filter some words out of the text vector we created
filtered_words = ____(____, ____, ____, ____)

Editar e executar o código