ComeçarComece de graça

Carregando dados dos voos

Neste exercício, você vai carregar alguns dados de voos de uma companhia aérea a partir de um arquivo CSV. Para garantir que o exercício seja rápido, esses dados foram reduzidos para apenas 50.000 registros. Você pode pegar um conjunto de dados maior no mesmo formato aqui.

Observações sobre o formato CSV:

  • Os campos são separados por uma vírgula (esse é o separador padrão) e
  • Os dados que faltam são indicados pela sequência “NA”.

Dicionário de dados:

  • mon — mês (número inteiro entre 1 e 12)
  • dom — dia do mês (número inteiro entre 1 e 31)
  • dow — dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)
  • carrier — transportadora (código IATA)
  • flight — número do voo
  • org — aeroporto de origem (código IATA)
  • mile — distância (milhas)
  • depart — hora de partida (hora decimal)
  • duration — tempo que você acha que vai demorar (em minutos)
  • delay — atraso (em minutos)

pyspark foi importado pra você e a sessão foi inicializada.

Observação: Os dados foram bem reduzidos.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Ler dados de um arquivo CSV chamado “ flights.csv ”. Atribuir tipos de dados às colunas automaticamente. Lida com dados que estão faltando.
  • Quantos registros tem nos dados?
  • Dá uma olhada nos primeiros cinco registros.
  • Que tipos de dados foram atribuídos às colunas? Tá tudo certo?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Editar e executar o código