Map und Collect
Die wichtigste Methode, mit der du in PySpark Daten manipulieren kannst, ist map()
. Die map()
-Transformation nimmt eine Funktion entgegen und wendet sie auf jedes Element im RDD an. Mit ihr lassen sich diverse Aufgaben erledigen. Sie kann zum Beispiel die zugehörige Website für jede URL in unserer Sammlung abrufen oder Zahlen quadrieren. In dieser einfachen Übung verwendest du die map()
-Transformation, um für jede Zahl im zuvor erstellten RDD numbRDD
die dritte Potenz zu berechnen. Als Nächstes speicherst du alle Elemente in einer Variablen und gibst schließlich das Ergebnis aus.
Zur Erinnerung: Der SparkContext sc
und numbRDD
sind bereits im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Erstelle eine
map()
-Transformation zur Berechnung der dritten Potenz für alle Zahlen innumbRDD
. - Sammle die Ergebnisse in der Variable
numbers_all
. - Gib das Ergebnis anhand der Variable
numbers_all
aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)