ComeçarComece gratuitamente

Remoção de colunas e linhas

Você carregou anteriormente os dados de voo da companhia aérea a partir de um arquivo CSV. Você vai desenvolver um modelo para prever se um determinado voo vai atrasar ou não.

Neste exercício, você precisa reduzir esses dados em:

  1. remover uma coluna não informativa e
  2. removendo as linhas que não têm informações sobre o atraso ou não de um voo.

Os dados estão disponíveis em flights.

Observação:: Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.

Este exercício faz parte do curso

Machine learning com PySpark

Ver Curso

Instruções de exercício

  • Remova a coluna flight.
  • Descubra quantos registros têm valores ausentes na coluna delay.
  • Remova os registros com valores ausentes na coluna delay.
  • Remova os registros com valores ausentes em qualquer coluna e obtenha o número de linhas restantes.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Remove the 'flight' column
flights_drop_column = flights.____(____)

# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()

# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)

# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())
Editar e executar código