ComeçarComece gratuitamente

Seleção de recursos relevantes

Neste exercício, você identificará as colunas redundantes no conjunto de dados volunteer e executará a seleção de recursos no conjunto de dados para retornar um DataFrame dos recursos relevantes.

Por exemplo, se você explorar o conjunto de dados volunteer no console, verá três recursos relacionados à localização: locality, region, e postalcode. Eles contêm informações relacionadas, portanto, faria sentido manter apenas um dos recursos.

Reserve algum tempo para examinar os recursos do volunteer no console e tente identificar os recursos redundantes.

Este exercício faz parte do curso

Pré-processamento para aprendizado de máquina em Python

Ver Curso

Instruções de exercício

  • Crie uma lista de nomes de colunas redundantes e armazene-a na variável to_drop:

    • De todos os recursos relacionados à localização, mantenha apenas postalcode.

    • Os recursos que passaram pelo processo de engenharia de recursos também são redundantes.

  • Remova as colunas da lista to_drop do conjunto de dados.

  • Imprima o site .head() de volunteer_subset para ver as colunas selecionadas.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]

# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)

# Print out the head of volunteer_subset
print(____)
Editar e executar código