ComeçarComece de graça

Removendo uma lista de colunas

Nosso conjunto de dados é rico em muitos atributos, mas nem todos são valiosos. Há vários que vão ser difíceis de transformar em algo útil. Por enquanto, vamos remover quaisquer colunas que não sejam imediatamente úteis, descartando-as.

  • 'STREETNUMBERNUMERIC': O número do endereço postal da casa
  • 'FIREPLACES': Número de lareiras na casa
  • 'LOTSIZEDIMENSIONS': Texto livre descrevendo o formato do lote
  • 'LISTTYPE': Conjunto de valores do tipo de venda
  • 'ACRES': Área numérica do tamanho do lote

Este exercício faz parte do curso

Feature Engineering com PySpark

Ver curso

Instruções do exercício

  • Leia a lista de descrições de colunas acima e explore seus 30 principais valores com show(). O dataframe já está filtrado para as colunas listadas como df.
  • Crie uma lista com duas colunas para remover, com base na pouca relevância para prever preços de casas, chamada cols_to_drop. Lembre-se de que computadores só interpretam números explicitamente e não entendem contexto.
  • Use a função drop() para remover do dataframe df as colunas na lista cols_to_drop.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Show top 30 records
df.____(____)

# List of columns to remove from dataset
cols_to_drop = [____, ____]

# Drop columns in list
df = df.____(____)
Editar e executar o código