Partities in je data
De textFile()-methode van SparkContext heeft een optioneel tweede argument, minPartitions, om het minimale aantal partities op te geven. In deze oefening maak je een RDD met de naam fileRDD_part met 5 partities en vergelijk je die vervolgens met fileRDD die je in de vorige oefening hebt gemaakt. Raadpleeg de dia "Understanding Partition" in video 2.1 om de methoden te zien voor het maken en opvragen van het aantal partities in een RDD.
Onthoud: je hebt al een SparkContext sc, file_path en fileRDD beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Zoek het aantal partities waarop de RDD
fileRDDdraait. - Maak een RDD met de naam
fileRDD_partvanaf het bestandspad, maar maak 5 partities. - Bevestig het aantal partities in de nieuwe RDD
fileRDD_part.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)