ComeçarComece de graça

Reparticionando os dados

Existe um dataframe text_df com as colunas id, word e chapter. As 5 primeiras linhas de text_df são exibidas no console.

Você pode verificar que há 12 capítulos com o seguinte comando:

text_df.select('chapter')\
       .distinct()\
       .sort('chapter')\
       .show(truncate=False)

O resultado desse comando é impresso no console como Table 1.

Atualmente, o dataframe text_df está em uma única partição. Suponha que você saiba que as próximas etapas de processamento vão agrupar os dados por capítulos. O processamento será mais eficiente se cada capítulo ficar em uma única máquina. Para evitar movimentações desnecessárias de dados entre máquinas, vamos reparticionar o dataframe em uma partição por capítulo, usando os comandos repartition e getNumPartitions ensinados no primeiro vídeo desta capítulo.

Se tiver alguma dúvida sobre algo que foi feito no vídeo, não hesite em consultar os Slides disponíveis à direita do console.

Este exercício faz parte do curso

Introdução ao Spark SQL em Python

Ver curso

Instruções do exercício

  • Reparticione o text_df em 12 partições, com cada capítulo em sua própria partição.
  • Exiba o número de partições no novo dataframe.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Repartition text_df into 12 partitions on 'chapter' column
repart_df = text_df.____(____, ____)

# Prove that repart_df has 12 partitions
repart_df.____.____
Editar e executar o código