Reparticionando os dados
Existe um dataframe text_df com as colunas id, word e chapter. As 5 primeiras linhas de text_df são exibidas no console.
Você pode verificar que há 12 capítulos com o seguinte comando:
text_df.select('chapter')\
.distinct()\
.sort('chapter')\
.show(truncate=False)
O resultado desse comando é impresso no console como Table 1.
Atualmente, o dataframe text_df está em uma única partição. Suponha que você saiba que as próximas etapas de processamento vão agrupar os dados por capítulos. O processamento será mais eficiente se cada capítulo ficar em uma única máquina. Para evitar movimentações desnecessárias de dados entre máquinas, vamos reparticionar o dataframe em uma partição por capítulo, usando os comandos repartition e getNumPartitions ensinados no primeiro vídeo desta capítulo.
Se tiver alguma dúvida sobre algo que foi feito no vídeo, não hesite em consultar os Slides disponíveis à direita do console.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Reparticione o
text_dfem 12 partições, com cada capítulo em sua própria partição. - Exiba o número de partições no novo dataframe.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Repartition text_df into 12 partitions on 'chapter' column
repart_df = text_df.____(____, ____)
# Prove that repart_df has 12 partitions
repart_df.____.____