RDD's uit geparallelliseerde collecties
Resilient Distributed Dataset (RDD) is de basisabstractie in Spark. Het is een onveranderlijke, gedistribueerde verzameling objecten. Omdat RDD een fundamenteel en dragend gegevenstype in Spark is, is het belangrijk dat je weet hoe je er een maakt. In deze oefening maak je je eerste RDD in PySpark vanuit een verzameling woorden.
Onthoud: je hebt al een SparkContext sc beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een RDD met de naam
RDDvan een Python-lijst met woorden. - Controleer dat het aangemaakte object een RDD is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))