RDD's uit externe gegevenssets

PySpark kan eenvoudig RDD's maken uit bestanden die zijn opgeslagen op externe opslag, zoals HDFS (Hadoop Distributed File System), Amazon S3-buckets, enzovoort. De meest gebruikelijke manier om RDD's te maken is echter vanaf bestanden op je lokale bestandssysteem. Deze methode neemt een bestandspad en leest het als een verzameling regels. In deze oefening maak je een RDD van het bestandspad (file_path) met de bestandsnaam README.md, die al beschikbaar is in je werkruimte.

Vergeet niet: je hebt al een SparkContext sc beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

Print de file_path in de PySpark-shell.
Maak een RDD met de naam fileRDD van een file_path.
Print het type van de aangemaakte fileRDD.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the file_path
print("The file_path is", ____)

# Create a fileRDD from file_path
fileRDD = sc.____(file_path)

# Check the type of fileRDD
print("The file type of fileRDD is", type(____))

Code bewerken en uitvoeren