ComeçarComece de graça

Carregando dados de voos

Neste exercício, você carregará alguns dados de voos de companhias aéreas a partir de um arquivo CSV. Para garantir que o exercício seja executado rapidamente, esses dados foram reduzidos a apenas 50.000 registros. Você pode obter um conjunto de dados maior no mesmo formato aqui.

Observações sobre o formato CSV:

  • Os campos são separados por uma vírgula (esse é o separador padrão) e
  • Os dados ausentes são indicados pela string "NA".

Dicionário de dados:

  • mon - mês (número inteiro entre 1 e 12)
  • dom - dia do mês (número inteiro entre 1 e 31)
  • dow - dia da semana (número inteiro; 1 = segunda-feira e 7 = domingo)
  • carrier - transportadora(código IATA)
  • flight - número do voo
  • org - aeroporto de origem(código IATA)
  • mile - distância (milhas)
  • depart - horário de partida (hora decimal)
  • duration - duração esperada (minutos)
  • delay - atraso (minutos)

pyspark foi importado para você e a sessão foi inicializada.

Observação: Os dados foram submetidos a uma amostragem agressivamente reduzida.

Este exercício faz parte do curso

Machine learning com PySpark

Ver curso

Instruções do exercício

  • Leia os dados de um arquivo CSV chamado flights.csv. Atribuir tipos de dados às colunas automaticamente. Lidar com dados ausentes.
  • Quantos registros há nos dados?
  • Dê uma olhada nos cinco primeiros registros.
  • Quais tipos de dados foram atribuídos às colunas? Você acha que isso está correto?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Read data from CSV file
flights = spark.____.____(____,
                         sep=____,
                         header=____,
                         inferSchema=____,
                         nullValue=____)

# Get number of records
print("The data contain %d records." % flights.____())

# View the first five records
flights.____(5)

# Check column data types
print(flights.____)
Editar e executar o código