Pipeline rápido
Antes de você analisar alguns dados mais complexos, seu gerente gostaria de ver um exemplo simples de pipeline, incluindo as etapas básicas. Neste exemplo, você desejará ingerir um arquivo de dados, filtrar algumas linhas, adicionar uma coluna ID a ele e, em seguida, gravá-lo como dados JSON.
O contexto spark
é definido, juntamente com a biblioteca pyspark.sql.functions
, que tem como pseudônimo F
, como de costume.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções do exercício
- Importe o arquivo
2015-departures.csv.gz
para um DataFrame. Observe que o cabeçalho já está definido. - Filtre o DataFrame para que ele contenha apenas voos com duração superior a 0 minutos. Use o índice da coluna, não o nome da coluna (lembre-se de usar
.printSchema()
para ver os nomes/ordem das colunas). - Adicione uma coluna ID.
- Escreva o arquivo como um documento JSON chamado
output.json
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the data to a DataFrame
departures_df = spark.____(____, header=____)
# Remove any duration of 0
departures_df = departures_df.____(____)
# Add an ID column
departures_df = departures_df.____('id', ____)
# Write the file out to JSON format
____.write.____(____, mode='overwrite')