Partizioni nei tuoi dati
Il metodo textFile() di SparkContext accetta un secondo argomento facoltativo chiamato minPartitions per specificare il numero minimo di partizioni. In questo esercizio creerai un RDD chiamato fileRDD_part con 5 partizioni e poi lo confronterai con fileRDD che hai creato nell'esercizio precedente. Fai riferimento alla diapositiva "Understanding Partition" nel video 2.1 per conoscere i metodi per creare e ottenere il numero di partizioni in un RDD.
Ricorda: nel tuo workspace sono già disponibili uno SparkContext sc, file_path e fileRDD.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Trova il numero di partizioni che supportano l'RDD
fileRDD. - Crea un RDD chiamato
fileRDD_partdal percorso del file ma con 5 partizioni. - Verifica il numero di partizioni nel nuovo RDD
fileRDD_part.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)