Usando o processamento preguiçoso

As operações de processamento preguiçoso geralmente retornam na mesma quantidade de tempo, independentemente da quantidade real de dados. Lembre-se de que isso se deve ao fato de o Spark não realizar nenhuma transformação até que uma ação seja solicitada.

Para este exercício, definiremos um Data Frame (aa_dfw_df) e adicionaremos algumas transformações. Observe o tempo necessário para que as transformações sejam concluídas quando definidas versus quando os dados são realmente consultados. Essas diferenças podem ser curtas, mas serão perceptíveis. Quando você estiver trabalhando com um cluster Spark completo com grandes quantidades de dados, a diferença será mais aparente.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

Carregue o quadro de dados.
Adicione a transformação para F.lower() à coluna Destination Airport.
Mostre o Data Frame, observando a diferença de tempo para que essa ação seja concluída.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the CSV file
aa_dfw_df = ____.____.____('csv').options(Header=True).load('AA_DFW_2018.csv.gz')

# Add the airport column using the F.lower() method
aa_dfw_df = aa_dfw_df.withColumn('airport', ____(aa_dfw_df['Destination Airport']))

# Show the DataFrame
____

Editar e executar o código