Carregando dados dos voos

Neste exercício, você vai carregar alguns dados de voos de uma companhia aérea a partir de um arquivo CSV. Para garantir que o exercício seja rápido, esses dados foram reduzidos para apenas 50.000 registros. Você pode pegar um conjunto de dados maior no mesmo formato aqui.

Observações sobre o formato CSV:

Os campos são separados por uma vírgula (esse é o separador padrão) e
Os dados que faltam são indicados pela sequência “NA”.

Dicionário de dados:

mon — mês (número inteiro entre 1 e 12)
dom — dia do mês (número inteiro entre 1 e 31)
dow — dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)
carrier — transportadora (código IATA)
flight — número do voo
org — aeroporto de origem (código IATA)
mile — distância (milhas)
depart — hora de partida (hora decimal)
duration — tempo que você acha que vai demorar (em minutos)
delay — atraso (em minutos)

pyspark foi importado pra você e a sessão foi inicializada.

Observação: Os dados foram bem reduzidos.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

Ler dados de um arquivo CSV chamado “ flights.csv ”. Atribuir tipos de dados às colunas automaticamente. Lida com dados que estão faltando.
Quantos registros tem nos dados?
Dá uma olhada nos primeiros cinco registros.
Que tipos de dados foram atribuídos às colunas? Tá tudo certo?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)

Editar e executar o código