Comece agoraComece grátis

Pipeline rápido

Antes de você analisar alguns dados mais complexos, seu gerente gostaria de ver um exemplo simples de pipeline, incluindo as etapas básicas. Neste exemplo, você desejará ingerir um arquivo de dados, filtrar algumas linhas, adicionar uma coluna ID a ele e, em seguida, gravá-lo como dados JSON.

O contexto spark é definido, juntamente com a biblioteca pyspark.sql.functions, que tem como pseudônimo F, como de costume.

Este exercicio faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercicio

  • Importe o arquivo 2015-departures.csv.gz para um DataFrame. Observe que o cabeçalho já está definido.
  • Filtre o DataFrame para que ele contenha apenas voos com duração superior a 0 minutos. Use o índice da coluna, não o nome da coluna (lembre-se de usar .printSchema() para ver os nomes/ordem das colunas).
  • Adicione uma coluna ID.
  • Escreva o arquivo como um documento JSON chamado output.json.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')
Editar e Executar Código