Filter und Count
Die RDD-Transformation filter()
liefert ein neues RDD-Objekt, das nur die Elemente enthält, die einer bestimmten Funktion entsprechen. So kannst du große Datensätze nach einem Schlüsselwort filtern. In dieser Übung filterst du Zeilen mit dem Schlüsselwort Spark
aus dem RDD-Objekt fileRDD
heraus, das aus Textzeilen der Datei README.md
besteht. Als Nächstes zählst du die Gesamtzahl der Zeilen, die das Schlüsselwort Spark
enthalten, und gibst schließlich die ersten vier Zeilen des gefilterten RDD-Objekts aus.
Zur Erinnerung: Der SparkContext sc
, file_path
und fileRDD
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine
filter()
-Transformation, um die Zeilen auszuwählen, die das SchlüsselwortSpark
enthalten. - Wie viele Zeilen in
fileRDD_filter
enthalten das SchlüsselwortSpark
? - Gib die ersten vier Zeilen des resultierenden RDD-Objekts aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)