CommencerCommencer gratuitement

Partitions dans vos données

La méthode textFile() de SparkContext prend un deuxième argument facultatif appelé minPartitions pour spécifier le nombre minimum de partitions. Dans cet exercice, vous allez créer un RDD nommé fileRDD_part avec 5 partitions et le comparer au fileRDD que vous avez créé dans l'exercice précédent. Reportez-vous à la diapositive « Comprendre les partitions » de la vidéo 2.1 pour connaître les méthodes de création et d'obtention du nombre de partitions dans un RDD.

Rappelez-vous qu’un SparkContext sc, file_path et fileRDD se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

  • Trouvez le nombre de partitions que comporte le RDD fileRDD.
  • Créez un RDD nommé fileRDD_part à partir du chemin d'accès au fichier, mais créez 5 partitions.
  • Confirmez le nombre de partitions dans le nouveau RDD fileRDD_part.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Modifier et exécuter le code