ComeçarComece de graça

Removendo colunas e linhas

Você já carregou os dados dos voos de uma companhia aérea de um arquivo CSV. Você vai criar um modelo que vai prever se um voo vai atrasar ou não.

Neste exercício, você precisa reduzir esses dados da seguinte forma:

  1. tirar uma coluna que não diz nada e
  2. tirando as linhas que não têm informação sobre se um voo atrasou ou não.

Os dados estão disponíveis em flights.

Observação: Pode ser útil revisar os slides das lições no painel Slides ao lado do IPython Shell.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Tira a coluna “ flight ”.
  • Descubra quantos registros têm valores faltando na coluna “ delay ”.
  • Tira os registros que não têm valores na coluna “ delay ”.
  • Tira os registros com valores faltando em qualquer coluna e mostra quantas linhas sobraram.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Editar e executar o código