Aan de slagGa gratis aan de slag

RDD's uit geparallelliseerde collecties

Resilient Distributed Dataset (RDD) is de basisabstractie in Spark. Het is een onveranderlijke, gedistribueerde verzameling objecten. Omdat RDD een fundamenteel en dragend gegevenstype in Spark is, is het belangrijk dat je weet hoe je er een maakt. In deze oefening maak je je eerste RDD in PySpark vanuit een verzameling woorden.

Onthoud: je hebt al een SparkContext sc beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Maak een RDD met de naam RDD van een Python-lijst met woorden.
  • Controleer dat het aangemaakte object een RDD is.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Code bewerken en uitvoeren