Seleção de recursos relevantes
Neste exercício, você identificará as colunas redundantes no conjunto de dados volunteer e executará a seleção de recursos no conjunto de dados para retornar um DataFrame dos recursos relevantes.
Por exemplo, se você explorar o conjunto de dados volunteer no console, verá três recursos relacionados à localização: locality, region, e postalcode. Eles contêm informações relacionadas, portanto, faria sentido manter apenas um dos recursos.
Reserve algum tempo para examinar os recursos do volunteer no console e tente identificar os recursos redundantes.
Este exercício faz parte do curso
Pré-processamento para aprendizado de máquina em Python
Instruções do exercício
Crie uma lista de nomes de colunas redundantes e armazene-a na variável
to_drop:De todos os recursos relacionados à localização, mantenha apenas
postalcode.Os recursos que passaram pelo processo de engenharia de recursos também são redundantes.
Remova as colunas da lista
to_dropdo conjunto de dados.Imprima o site
.head()devolunteer_subsetpara ver as colunas selecionadas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a list of redundant column names to drop
to_drop = ["____", "____", "____", "____", "____"]
# Drop those columns from the dataset
volunteer_subset = ____.____(____, ____)
# Print out the head of volunteer_subset
print(____)