Partitions dans vos données
La méthode textFile()
de SparkContext prend un deuxième argument facultatif appelé minPartitions
pour spécifier le nombre minimum de partitions. Dans cet exercice, vous allez créer un RDD nommé fileRDD_part
avec 5 partitions et le comparer au fileRDD
que vous avez créé dans l'exercice précédent. Reportez-vous à la diapositive « Comprendre les partitions » de la vidéo 2.1 pour connaître les méthodes de création et d'obtention du nombre de partitions dans un RDD.
Rappelez-vous qu’un SparkContext sc
, file_path
et fileRDD
se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Trouvez le nombre de partitions que comporte le RDD
fileRDD
. - Créez un RDD nommé
fileRDD_part
à partir du chemin d'accès au fichier, mais créez 5 partitions. - Confirmez le nombre de partitions dans le nouveau RDD
fileRDD_part
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)