Carregando dados de voos
Neste exercício, você carregará alguns dados de voos de companhias aéreas de um arquivo CSV. Para garantir que o exercício seja executado rapidamente, esses dados foram reduzidos a apenas 50.000 registros. Você pode obter um conjunto de dados maior no mesmo formato aqui.
Notas sobre o formato CSV:
- Os campos são separados por uma vírgula (esse é o separador padrão) e
- Os dados ausentes são indicados pela string 'NA'.
Dicionário de dados:
mon
- mês (número inteiro entre 1 e 12)dom
- dia do mês (número inteiro entre 1 e 31)dow
- dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)carrier
- Transportadora (códigoIATA )flight
- número do vooorg
- Aeroporto de origem (códigoIATA )mile
- distância (milhas)depart
- horário de partida (hora decimal)duration
- duração esperada (minutos)delay
- atraso (minutos)
pyspark
foi importado para você e a sessão foi inicializada.
Observação: Os dados foram submetidos a uma amostragem agressivamente reduzida.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Leia os dados de um arquivo CSV chamado 'flights.csv'. Atribuir tipos de dados às colunas automaticamente. Lidar com dados ausentes.
- Quantos registros há nos dados?
- Dê uma olhada nos cinco primeiros registros.
- Quais tipos de dados foram atribuídos às colunas? Você acha que isso está correto?
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Read data from CSV file
flights = spark.____.____(____,
sep=____,
header=____,
inferSchema=____,
nullValue=____)
# Get number of records
print("The data contain %d records." % flights.____())
# View the first five records
flights.____(5)
# Check column data types
print(flights.____)