RDDs aus externen Datensätzen
PySpark kann ganz einfach RDDs aus Dateien erstellen, die auf externen Speichermedien wie HDFS (Hadoop Distributed File System), Buckets in Amazon S3 usw. liegen. Am gebräuchlichsten ist es jedoch, RDDs anhand von Dateien zu erstellen, die in deinem lokalen Dateisystem gespeichert sind. Diese Methode nimmt einen Dateipfad und liest ihn als eine Sammlung von Zeilen. In dieser Übung erstellst du einen RDD anhand des Dateipfads (file_path
) mit dem Dateinamen README.md
, der bereits im Arbeitsbereich vorhanden ist.
Zur Erinnerung: Es gibt bereits einen SparkContext namens sc
in deinem Arbeitsbereich.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Gib
file_path
in der PySpark-Shell aus. - Erstelle einen RDD namens
fileRDD
mithilfe vonfile_path
. - Gib den Typ des erstellten
fileRDD
-Objekts aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))