Erste SchritteKostenlos loslegen

Partitionen in deinen Daten

Die Methode textFile() von SparkContext nimmt ein optionales zweites Argument namens minPartitions entgegen, um die Mindestanzahl der Partitionen festzulegen. In dieser Übung erstellst du einen RDD namens fileRDD_part und fünf Partitionen und vergleichst das dann mit dem fileRDD-Objekt aus der vorherigen Übung. Schau dir die Folie „Partitionen verstehen“ in Video 2.1 nochmal an, um dich zu erinnern, mit welchen Methoden du Partitionen in einem RDD erstellen und ihre Anzahl ermitteln kannst.

Zur Erinnerung: Im Arbeitsbereich gibt es bereits den SparkContext sc, file_path und fileRDD.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Finde die Anzahl der Partitionen im RDD fileRDD heraus.
  • Erstelle einen RDD namens fileRDD_part aus dem Dateipfad, aber erstelle fünf Partitionen.
  • Bestätige die Anzahl der Partitionen im neuen RDD fileRDD_part.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Bearbeiten und Ausführen von Code