Escrevendo configurações do Spark
Agora que você revisou algumas das configurações do Spark em seu cluster, você deseja modificar algumas das configurações para ajustar o Spark às suas necessidades. Você importará alguns dados para verificar se suas alterações afetaram o cluster.
A configuração do Spark é definida inicialmente com o valor padrão de 200 partições.
O objeto spark
está disponível para uso. Um arquivo chamado departures.txt.gz
está disponível para importação. Um DataFrame inicial contendo as linhas distintas de departures.txt.gz
está disponível como departures_df
.
Este exercício faz parte do curso
Limpeza de dados com o PySpark
Instruções de exercício
- Armazene o número de partições em
departures_df
na variávelbefore
. - Altere a configuração de
spark.sql.shuffle.partitions
para 500 partições. - Recrie o DataFrame
departures_df
lendo as linhas distintas do arquivo de partidas. - Imprima o número de partições de antes e depois da alteração de configuração.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Store the number of partitions in variable
before = departures_df.____
# Configure Spark to use 500 partitions
____('spark.sql.shuffle.partitions', ____)
# Recreate the DataFrame using the departures data file
departures_df = spark.read.csv('departures.txt.gz').____
# Print the number of partitions for each instance
print("Partition count before change: %d" % ____)
print("Partition count after change: %d" % ____)