Seleção de recursos relevantes
Neste exercício, você identificará as colunas redundantes no conjunto de dados volunteer
e executará a seleção de recursos no conjunto de dados para retornar um DataFrame dos recursos relevantes.
Por exemplo, se você explorar o conjunto de dados volunteer
no console, verá três recursos relacionados à localização: locality
, region
, e postalcode
. Eles contêm informações relacionadas, portanto, faria sentido manter apenas um dos recursos.
Reserve algum tempo para examinar os recursos do volunteer
no console e tente identificar os recursos redundantes.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções de exercício
Crie uma lista de nomes de colunas redundantes e armazene-a na variável
to_drop
:De todos os recursos relacionados à localização, mantenha apenas
postalcode
.Os recursos que passaram pelo processo de engenharia de recursos também são redundantes.
Remova as colunas da lista
to_drop
do conjunto de dados.Imprima o site
.head()
devolunteer_subset
para ver as colunas selecionadas.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)