ComeçarComece gratuitamente

Carregando dados de voos

Neste exercício, você carregará alguns dados de voos de companhias aéreas de um arquivo CSV. Para garantir que o exercício seja executado rapidamente, esses dados foram reduzidos a apenas 50.000 registros. Você pode obter um conjunto de dados maior no mesmo formato aqui.

Notas sobre o formato CSV:

  • Os campos são separados por uma vírgula (esse é o separador padrão) e
  • Os dados ausentes são indicados pela string 'NA'.

Dicionário de dados:

  • mon - mês (número inteiro entre 1 e 12)
  • dom - dia do mês (número inteiro entre 1 e 31)
  • dow - dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)
  • carrier - Transportadora (códigoIATA )
  • flight - número do voo
  • org - Aeroporto de origem (códigoIATA )
  • mile - distância (milhas)
  • depart - horário de partida (hora decimal)
  • duration - duração esperada (minutos)
  • delay - atraso (minutos)

pyspark foi importado para você e a sessão foi inicializada.

Observação: Os dados foram submetidos a uma amostragem agressivamente reduzida.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Leia os dados de um arquivo CSV chamado 'flights.csv'. Atribuir tipos de dados às colunas automaticamente. Lidar com dados ausentes.
  • Quantos registros há nos dados?
  • Dê uma olhada nos cinco primeiros registros.
  • Quais tipos de dados foram atribuídos às colunas? Você acha que isso está correto?

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Editar e executar código