LoslegenKostenlos loslegen

Daten in die PySpark-Shell laden

In PySpark drücken wir unsere Berechnungen durch Operationen auf verteilten Sammlungen aus, die automatisch im gesamten Cluster parallelisiert werden. In der vorherigen Übung hast du ein Beispiel für das Laden einer Liste als parallelisierte Sammlungen gesehen. In dieser Übung wirst du nun die Daten aus einer lokalen Datei in die PySpark-Shell laden.

Denk daran, dass du bereits den SparkContext sc und die Variable file_path (mit dem Pfad zur Datei README.md) in deinem Arbeitsbereich hast.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Lade eine lokale Textdatei mit dem Dateinamen README.md in die PySpark-Shell.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load a local file into PySpark shell
lines = sc.____(file_path)
Code bearbeiten und ausführen