Partitionen in deinen Daten
Die Methode textFile()
von SparkContext nimmt ein optionales zweites Argument namens minPartitions
entgegen, um die Mindestanzahl der Partitionen festzulegen. In dieser Übung erstellst du einen RDD namens fileRDD_part
und fünf Partitionen und vergleichst das dann mit dem fileRDD
-Objekt aus der vorherigen Übung. Schau dir die Folie „Partitionen verstehen“ in Video 2.1 nochmal an, um dich zu erinnern, mit welchen Methoden du Partitionen in einem RDD erstellen und ihre Anzahl ermitteln kannst.
Zur Erinnerung: Im Arbeitsbereich gibt es bereits den SparkContext sc
, file_path
und fileRDD
.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Finde die Anzahl der Partitionen im RDD
fileRDD
heraus. - Erstelle einen RDD namens
fileRDD_part
aus dem Dateipfad, aber erstelle fünf Partitionen. - Bestätige die Anzahl der Partitionen im neuen RDD
fileRDD_part
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)