ComeçarComece de graça

Selecionando features relevantes

Neste exercício, você vai identificar as colunas redundantes no conjunto de dados volunteer e realizar a seleção de features para retornar um DataFrame apenas com as features relevantes.

Por exemplo, se você explorar o conjunto volunteer no console, verá três features relacionadas à localização: locality, region e postalcode. Elas contêm informações relacionadas, então faz sentido manter apenas uma delas.

Dedique um tempo para examinar as features de volunteer no console e tente identificar as features redundantes.

Este exercício faz parte do curso

Pré-processamento para Machine Learning em Python

Ver curso

Instruções do exercício

  • Crie uma lista com os nomes das colunas redundantes e armazene em to_drop:
    • Entre todas as features relacionadas à localização, mantenha apenas postalcode.
    • Features que passaram por engenharia de atributos também são redundantes.
  • Remova do conjunto de dados as colunas listadas em to_drop.
  • Imprima o .head() de volunteer_subset para ver as colunas selecionadas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)
Editar e executar o código