Basis-RDD erstellen und transformieren
Die Menge an unstrukturierten Daten (Logzeilen, Bilder, Binärdateien) wächst enorm – und PySpark ist ein hervorragendes Framework, um diese Art von Daten mithilfe von RDDs zu analysieren. In dieser 3-teiligen Übung schreibst du Code, der die häufigsten Wörter im Gesamtwerk von William Shakespeare herausfindet.
Hier ist eine kurze Auflistung der nötigen Schritte für dieses Wortzählprogramm:
- Erstelle einen Basis-RDD aus der Datei
Complete_Shakespeare.txt. - Verwende eine RDD-Transformation, um eine lange Liste von Wörtern aus jedem Element im Basis-RDD zu erstellen.
- Entferne Stoppwörter aus den Daten.
- Erstelle einen Paar-RDD, bei dem jedes Element ein Tupel aus
('w', 1)ist. - Gruppiere die Elemente im Paar-RDD nach Schlüssel (Wort) und addiere ihre Werte.
- Vertausche die Schlüssel (Wort) und Werte (Zähler), sodass die Schlüssel zu Zählern und die Wörter zu Werten werden.
- Sortiere schließlich den RDD in absteigender Reihenfolge und gib die zehn häufigsten Wörter und ihre Häufigkeit aus.
In dieser ersten Übung erstellst du einen Basis-RDD aus der Datei Complete_Shakespeare.txt und wandelst ihn in eine lange Liste von Wörtern um.
Zur Erinnerung: Der SparkContext sc ist bereits im Arbeitsbereich verfügbar. Eine Variable namens file_path (mit dem Pfad zur Datei Complete_Shakespeare.txt) ist ebenfalls schon geladen.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle einen RDD namens
baseRDD, der Zeilen ausfile_pathliest. - Transformiere
baseRDDin eine lange Liste von Wörtern und erstelle ein neuessplitRDD-Objekt. - Zähle die Gesamtzahl der Wörter in
splitRDD.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a baseRDD from the file path
baseRDD = sc.____(file_path)
# Split the lines of baseRDD into words
splitRDD = baseRDD.____(lambda x: x.split())
# Count the total number of words
print("Total number of words in splitRDD:", splitRDD.____())