Map en Collect

De belangrijkste manier waarop je data kunt bewerken in PySpark is met map(). De transformatie map() neemt een functie en past die toe op elk element in de RDD. Je kunt er van alles mee doen: van het ophalen van de website bij elke URL in je verzameling tot simpelweg getallen kwadrateren. In deze eenvoudige oefening gebruik je de transformatie map() om elk getal in de RDD numbRDD die je eerder hebt gemaakt te kuberen. Daarna sla je alle elementen op in een variabele en print je tenslotte de output.

Onthoud: je hebt al een SparkContext sc en numbRDD beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Maak een map()-transformatie die alle getallen in numbRDD kubert.
Verzamel de resultaten in een variabele numbers_all.
Print de output uit de variabele numbers_all.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)

Code bewerken en uitvoeren