Remoção de colunas e linhas
Você carregou anteriormente os dados de voo da companhia aérea a partir de um arquivo CSV. Você vai desenvolver um modelo para prever se um determinado voo vai atrasar ou não.
Neste exercício, você precisa reduzir esses dados em:
- remover uma coluna não informativa e
- removendo as linhas que não têm informações sobre o atraso ou não de um voo.
Os dados estão disponíveis em flights
.
Observação:: Você pode achar útil revisar os slides das lições no painel Slides, ao lado do IPython Shell.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções de exercício
- Remova a coluna
flight
. - Descubra quantos registros têm valores ausentes na coluna
delay
. - Remova os registros com valores ausentes na coluna
delay
. - Remova os registros com valores ausentes em qualquer coluna e obtenha o número de linhas restantes.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Remove the 'flight' column
flights_drop_column = flights.____(____)
# Number of records with missing 'delay' values
flights_drop_column.____('delay IS NULL').____()
# Remove records with missing 'delay' values
flights_valid_delay = flights_drop_column.____(____)
# Remove records with missing values in any column and get the number of remaining rows
flights_none_missing = flights_valid_delay.____()
print(flights_none_missing.____())