Carregando dados dos voos
Neste exercício, você vai carregar alguns dados de voos de uma companhia aérea a partir de um arquivo CSV. Para garantir que o exercício seja rápido, esses dados foram reduzidos para apenas 50.000 registros. Você pode pegar um conjunto de dados maior no mesmo formato aqui.
Observações sobre o formato CSV:
- Os campos são separados por uma vírgula (esse é o separador padrão) e
- Os dados que faltam são indicados pela sequência “NA”.
Dicionário de dados:
mon— mês (número inteiro entre 1 e 12)dom— dia do mês (número inteiro entre 1 e 31)dow— dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)carrier— transportadora (código IATA)flight— número do vooorg— aeroporto de origem (código IATA)mile— distância (milhas)depart— hora de partida (hora decimal)duration— tempo que você acha que vai demorar (em minutos)delay— atraso (em minutos)
pyspark foi importado pra você e a sessão foi inicializada.
Observação: Os dados foram bem reduzidos.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Ler dados de um arquivo CSV chamado “
flights.csv”. Atribuir tipos de dados às colunas automaticamente. Lida com dados que estão faltando. - Quantos registros tem nos dados?
- Dá uma olhada nos primeiros cinco registros.
- Que tipos de dados foram atribuídos às colunas? Tá tudo certo?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)