Carregando dados dos voos
Neste exercício, você vai carregar alguns dados de voos de uma companhia aérea a partir de um arquivo CSV. Para garantir que o exercício seja rápido, esses dados foram reduzidos para apenas 50.000 registros. Você pode pegar um conjunto de dados maior no mesmo formato aqui.
Observações sobre o formato CSV:
- Os campos são separados por uma vírgula (esse é o separador padrão) e
- Os dados que faltam são indicados pela sequência “NA”.
Dicionário de dados:
mon
— mês (número inteiro entre 1 e 12)dom
— dia do mês (número inteiro entre 1 e 31)dow
— dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)carrier
— transportadora (código IATA)flight
— número do vooorg
— aeroporto de origem (código IATA)mile
— distância (milhas)depart
— hora de partida (hora decimal)duration
— tempo que você acha que vai demorar (em minutos)delay
— atraso (em minutos)
pyspark
foi importado pra você e a sessão foi inicializada.
Observação: Os dados foram bem reduzidos.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Ler dados de um arquivo CSV chamado “
flights.csv
”. Atribuir tipos de dados às colunas automaticamente. Lida com dados que estão faltando. - Quantos registros tem nos dados?
- Dá uma olhada nos primeiros cinco registros.
- Que tipos de dados foram atribuídos às colunas? Tá tudo certo?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)