RDD's uit externe gegevenssets
PySpark kan eenvoudig RDD's maken uit bestanden die zijn opgeslagen op externe opslag, zoals HDFS (Hadoop Distributed File System), Amazon S3-buckets, enzovoort. De meest gebruikelijke manier om RDD's te maken is echter vanaf bestanden op je lokale bestandssysteem. Deze methode neemt een bestandspad en leest het als een verzameling regels. In deze oefening maak je een RDD van het bestandspad (file_path) met de bestandsnaam README.md, die al beschikbaar is in je werkruimte.
Vergeet niet: je hebt al een SparkContext sc beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Print de
file_pathin de PySpark-shell. - Maak een RDD met de naam
fileRDDvan eenfile_path. - Print het type van de aangemaakte
fileRDD.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the file_path
print("The file_path is", ____)
# Create a fileRDD from file_path
fileRDD = sc.____(file_path)
# Check the type of fileRDD
print("The file type of fileRDD is", type(____))