Pipeline rápido

Antes de você analisar alguns dados mais complexos, seu gerente gostaria de ver um exemplo simples de pipeline, incluindo as etapas básicas. Neste exemplo, você desejará ingerir um arquivo de dados, filtrar algumas linhas, adicionar uma coluna ID a ele e, em seguida, gravá-lo como dados JSON.

O contexto spark é definido, juntamente com a biblioteca pyspark.sql.functions, que tem como pseudônimo F, como de costume.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

Importe o arquivo 2015-departures.csv.gz para um DataFrame. Observe que o cabeçalho já está definido.
Filtre o DataFrame para que ele contenha apenas voos com duração superior a 0 minutos. Use o índice da coluna, não o nome da coluna (lembre-se de usar .printSchema() para ver os nomes/ordem das colunas).
Adicione uma coluna ID.
Escreva o arquivo como um documento JSON chamado output.json.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the data to a DataFrame
departures_df = spark.____(____, header=____)

# Remove any duration of 0
departures_df = departures_df.____(____)

# Add an ID column
departures_df = departures_df.____('id', ____)

# Write the file out to JSON format
____.write.____(____, mode='overwrite')

Editar e executar o código