Aan de slagBegin gratis

RDD's uit geparallelliseerde collecties

Resilient Distributed Dataset (RDD) is de basisabstractie in Spark. Het is een onveranderlijke, gedistribueerde verzameling objecten. Omdat RDD een fundamenteel en dragend gegevenstype in Spark is, is het belangrijk dat je weet hoe je er een maakt. In deze oefening maak je je eerste RDD in PySpark vanuit een verzameling woorden.

Onthoud: je hebt al een SparkContext sc beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

  • Maak een RDD met de naam RDD van een Python-lijst met woorden.
  • Controleer dat het aangemaakte object een RDD is.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Code bewerken en uitvoeren