Erste SchritteKostenlos loslegen

Map und Collect

Die wichtigste Methode, mit der du in PySpark Daten manipulieren kannst, ist map(). Die map()-Transformation nimmt eine Funktion entgegen und wendet sie auf jedes Element im RDD an. Mit ihr lassen sich diverse Aufgaben erledigen. Sie kann zum Beispiel die zugehörige Website für jede URL in unserer Sammlung abrufen oder Zahlen quadrieren. In dieser einfachen Übung verwendest du die map()-Transformation, um für jede Zahl im zuvor erstellten RDD numbRDD die dritte Potenz zu berechnen. Als Nächstes speicherst du alle Elemente in einer Variablen und gibst schließlich das Ergebnis aus.

Zur Erinnerung: Der SparkContext sc und numbRDD sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle eine map()-Transformation zur Berechnung der dritten Potenz für alle Zahlen in numbRDD.
  • Sammle die Ergebnisse in der Variable numbers_all.
  • Gib das Ergebnis anhand der Variable numbers_all aus.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)
Bearbeiten und Ausführen von Code