Usando o processamento preguiçoso
As operações de processamento preguiçoso geralmente retornam na mesma quantidade de tempo, independentemente da quantidade real de dados. Lembre-se de que isso se deve ao fato de o Spark não realizar nenhuma transformação até que uma ação seja solicitada.
Para este exercício, definiremos um Data Frame (aa_dfw_df
) e adicionaremos algumas transformações. Observe o tempo necessário para que as transformações sejam concluídas quando definidas versus quando os dados são realmente consultados. Essas diferenças podem ser curtas, mas serão perceptíveis. Quando você estiver trabalhando com um cluster Spark completo com grandes quantidades de dados, a diferença será mais aparente.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções de exercício
- Carregue o quadro de dados.
- Adicione a transformação para
F.lower()
à colunaDestination Airport
. - Mostre o Data Frame, observando a diferença de tempo para que essa ação seja concluída.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')
# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))
# Show the DataFrame
____