ComeçarComece gratuitamente

Partições em seus dados

O método textFile() do SparkContext recebe um segundo argumento opcional chamado minPartitions para especificar o número mínimo de partições. Neste exercício, você criará um RDD chamado fileRDD_part com 5 partições e, em seguida, comparará com o fileRDD que você criou no exercício anterior. Consulte o slide "Entendendo partição" no vídeo 2.1 para conhecer os métodos para criar e obter o número de partições em um RDD.

Lembre-se de que você já tem um SparkContext sc, file_path e fileRDD disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Encontre o número de partições que suportam o RDD fileRDD.
  • Crie um RDD chamado fileRDD_part a partir do caminho do arquivo, mas crie 5 partições.
  • Confirme o número de partições no novo RDD fileRDD_part.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Editar e executar código