Removendo uma lista de colunas
Nosso conjunto de dados é rico em muitos atributos, mas nem todos são valiosos. Há vários que vão ser difíceis de transformar em algo útil. Por enquanto, vamos remover quaisquer colunas que não sejam imediatamente úteis, descartando-as.
'STREETNUMBERNUMERIC': O número do endereço postal da casa'FIREPLACES': Número de lareiras na casa'LOTSIZEDIMENSIONS': Texto livre descrevendo o formato do lote'LISTTYPE': Conjunto de valores do tipo de venda'ACRES': Área numérica do tamanho do lote
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Leia a lista de descrições de colunas acima e explore seus 30 principais valores com
show(). O dataframe já está filtrado para as colunas listadas comodf. - Crie uma lista com duas colunas para remover, com base na pouca relevância para prever preços de casas, chamada
cols_to_drop. Lembre-se de que computadores só interpretam números explicitamente e não entendem contexto. - Use a função
drop()para remover do dataframedfas colunas na listacols_to_drop.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Show top 30 records
df.____(____)
# List of columns to remove from dataset
cols_to_drop = [____, ____]
# Drop columns in list
df = df.____(____)