Pipeline rápido
Antes de você analisar alguns dados mais complexos, seu gerente gostaria de ver um exemplo simples de pipeline, incluindo as etapas básicas. Neste exemplo, você desejará ingerir um arquivo de dados, filtrar algumas linhas, adicionar uma coluna ID a ele e, em seguida, gravá-lo como dados JSON.
O contexto spark é definido, juntamente com a biblioteca pyspark.sql.functions, que tem como pseudônimo F, como de costume.
Este exercicio faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercicio
- Importe o arquivo
2015-departures.csv.gzpara um DataFrame. Observe que o cabeçalho já está definido. - Filtre o DataFrame para que ele contenha apenas voos com duração superior a 0 minutos. Use o índice da coluna, não o nome da coluna (lembre-se de usar
.printSchema()para ver os nomes/ordem das colunas). - Adicione uma coluna ID.
- Escreva o arquivo como um documento JSON chamado
output.json.
exercicio interativo prático
Tente este exercicio completando este código de exemplo.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')