RDDs aus externen Datensätzen

PySpark kann ganz einfach RDDs aus Dateien erstellen, die auf externen Speichermedien wie HDFS (Hadoop Distributed File System), Buckets in Amazon S3 usw. liegen. Am gebräuchlichsten ist es jedoch, RDDs anhand von Dateien zu erstellen, die in deinem lokalen Dateisystem gespeichert sind. Diese Methode nimmt einen Dateipfad und liest ihn als eine Sammlung von Zeilen. In dieser Übung erstellst du einen RDD anhand des Dateipfads (file_path) mit dem Dateinamen README.md, der bereits im Arbeitsbereich vorhanden ist.

Zur Erinnerung: Es gibt bereits einen SparkContext namens sc in deinem Arbeitsbereich.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

Gib file_path in der PySpark-Shell aus.
Erstelle einen RDD namens fileRDD mithilfe von file_path.
Gib den Typ des erstellten fileRDD-Objekts aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Code bearbeiten und ausführen