Selecionando features relevantes
Neste exercício, você vai identificar as colunas redundantes no conjunto de dados volunteer e realizar a seleção de features para retornar um DataFrame apenas com as features relevantes.
Por exemplo, se você explorar o conjunto volunteer no console, verá três features relacionadas à localização: locality, region e postalcode. Elas contêm informações relacionadas, então faz sentido manter apenas uma delas.
Dedique um tempo para examinar as features de volunteer no console e tente identificar as features redundantes.
Este exercício faz parte do curso
Pré-processamento para Machine Learning em Python
Instruções do exercício
- Crie uma lista com os nomes das colunas redundantes e armazene em
to_drop:- Entre todas as features relacionadas à localização, mantenha apenas
postalcode. - Features que passaram por engenharia de atributos também são redundantes.
- Entre todas as features relacionadas à localização, mantenha apenas
- Remova do conjunto de dados as colunas listadas em
to_drop. - Imprima o
.head()devolunteer_subsetpara ver as colunas selecionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)