Escrevendo configurações do Spark

Agora que você revisou algumas das configurações do Spark em seu cluster, você deseja modificar algumas das configurações para ajustar o Spark às suas necessidades. Você importará alguns dados para verificar se suas alterações afetaram o cluster.

A configuração do Spark é definida inicialmente com o valor padrão de 200 partições.

O objeto spark está disponível para uso. Um arquivo chamado departures.txt.gz está disponível para importação. Um DataFrame inicial contendo as linhas distintas de departures.txt.gz está disponível como departures_df.

Este exercício faz parte do curso

Limpeza de dados com o PySpark

Ver curso

Instruções do exercício

Armazene o número de partições em departures_df na variável before.
Altere a configuração de spark.sql.shuffle.partitions para 500 partições.
Recrie o DataFrame departures_df lendo as linhas distintas do arquivo de partidas.
Imprima o número de partições de antes e depois da alteração de configuração.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Store the number of partitions in variable
before = departures_df.____

# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)

# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____

# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)

Editar e executar o código