RDDs aus externen Datensätzen
PySpark kann ganz einfach RDDs aus Dateien erstellen, die auf externen Speichermedien wie HDFS (Hadoop Distributed File System), Buckets in Amazon S3 usw. liegen. Am gebräuchlichsten ist es jedoch, RDDs anhand von Dateien zu erstellen, die in deinem lokalen Dateisystem gespeichert sind. Diese Methode nimmt einen Dateipfad und liest ihn als eine Sammlung von Zeilen. In dieser Übung erstellst du einen RDD anhand des Dateipfads (file_path) mit dem Dateinamen README.md, der bereits im Arbeitsbereich vorhanden ist.
Zur Erinnerung: Es gibt bereits einen SparkContext namens sc in deinem Arbeitsbereich.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Gib
file_pathin der PySpark-Shell aus. - Erstelle einen RDD namens
fileRDDmithilfe vonfile_path. - Gib den Typ des erstellten
fileRDD-Objekts aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))