Filter und Count

Die RDD-Transformation filter() liefert ein neues RDD-Objekt, das nur die Elemente enthält, die einer bestimmten Funktion entsprechen. So kannst du große Datensätze nach einem Schlüsselwort filtern. In dieser Übung filterst du Zeilen mit dem Schlüsselwort Spark aus dem RDD-Objekt fileRDD heraus, das aus Textzeilen der Datei README.md besteht. Als Nächstes zählst du die Gesamtzahl der Zeilen, die das Schlüsselwort Spark enthalten, und gibst schließlich die ersten vier Zeilen des gefilterten RDD-Objekts aus.

Zur Erinnerung: Der SparkContext sc, file_path und fileRDD sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

Erstelle eine filter()-Transformation, um die Zeilen auszuwählen, die das Schlüsselwort Spark enthalten.
Wie viele Zeilen in fileRDD_filter enthalten das Schlüsselwort Spark?
Gib die ersten vier Zeilen des resultierenden RDD-Objekts aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Code bearbeiten und ausführen