Partições em seus dados
O método textFile()
do SparkContext recebe um segundo argumento opcional chamado minPartitions
para especificar o número mínimo de partições. Neste exercício, você criará um RDD chamado fileRDD_part
com 5 partições e, em seguida, comparará com o fileRDD
que você criou no exercício anterior. Consulte o slide "Entendendo partição" no vídeo 2.1 para conhecer os métodos para criar e obter o número de partições em um RDD.
Lembre-se de que você já tem um SparkContext sc
, file_path
e fileRDD
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Encontre o número de partições que suportam o RDD
fileRDD
. - Crie um RDD chamado
fileRDD_part
a partir do caminho do arquivo, mas crie 5 partições. - Confirme o número de partições no novo RDD
fileRDD_part
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)