Map en Collect
De belangrijkste manier waarop je data kunt bewerken in PySpark is met map(). De transformatie map() neemt een functie en past die toe op elk element in de RDD. Je kunt er van alles mee doen: van het ophalen van de website bij elke URL in je verzameling tot simpelweg getallen kwadrateren. In deze eenvoudige oefening gebruik je de transformatie map() om elk getal in de RDD numbRDD die je eerder hebt gemaakt te kuberen. Daarna sla je alle elementen op in een variabele en print je tenslotte de output.
Onthoud: je hebt al een SparkContext sc en numbRDD beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Maak een
map()-transformatie die alle getallen innumbRDDkubert. - Verzamel de resultaten in een variabele
numbers_all. - Print de output uit de variabele
numbers_all.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)