LoslegenKostenlos starten

Map und Collect

Die wichtigste Methode, mit der du in PySpark Daten manipulieren kannst, ist map(). Die map()-Transformation nimmt eine Funktion entgegen und wendet sie auf jedes Element im RDD an. Mit ihr lassen sich diverse Aufgaben erledigen. Sie kann zum Beispiel die zugehörige Website für jede URL in unserer Sammlung abrufen oder Zahlen quadrieren. In dieser einfachen Übung verwendest du die map()-Transformation, um für jede Zahl im zuvor erstellten RDD numbRDD die dritte Potenz zu berechnen. Als Nächstes speicherst du alle Elemente in einer Variablen und gibst schließlich das Ergebnis aus.

Zur Erinnerung: Der SparkContext sc und numbRDD sind bereits im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle eine map()-Transformation zur Berechnung der dritten Potenz für alle Zahlen in numbRDD.
  • Sammle die Ergebnisse in der Variable numbers_all.
  • Gib das Ergebnis anhand der Variable numbers_all aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)
Code bearbeiten und ausführen