Daten in die PySpark-Shell laden
In PySpark drücken wir unsere Berechnungen durch Operationen auf verteilten Sammlungen aus, die automatisch im gesamten Cluster parallelisiert werden. In der vorherigen Übung hast du ein Beispiel für das Laden einer Liste als parallelisierte Sammlungen gesehen. In dieser Übung wirst du nun die Daten aus einer lokalen Datei in die PySpark-Shell laden.
Denk daran, dass du bereits den SparkContext sc
und die Variable file_path
(mit dem Pfad zur Datei README.md
) in deinem Arbeitsbereich hast.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Lade eine lokale Textdatei mit dem Dateinamen
README.md
in die PySpark-Shell.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load a local file into PySpark shell
lines = sc.____(file_path)