IniziaInizia gratis

Partizioni nei tuoi dati

Il metodo textFile() di SparkContext accetta un secondo argomento facoltativo chiamato minPartitions per specificare il numero minimo di partizioni. In questo esercizio creerai un RDD chiamato fileRDD_part con 5 partizioni e poi lo confronterai con fileRDD che hai creato nell'esercizio precedente. Fai riferimento alla diapositiva "Understanding Partition" nel video 2.1 per conoscere i metodi per creare e ottenere il numero di partizioni in un RDD.

Ricorda: nel tuo workspace sono già disponibili uno SparkContext sc, file_path e fileRDD.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Trova il numero di partizioni che supportano l'RDD fileRDD.
  • Crea un RDD chiamato fileRDD_part dal percorso del file ma con 5 partizioni.
  • Verifica il numero di partizioni nel nuovo RDD fileRDD_part.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Modifica ed esegui il codice