1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

Map i Collect

Główną metodą manipulowania danymi w PySpark jest map(). Transformacja map() przyjmuje funkcję i stosuje ją do każdego elementu RDD. Można jej używać do różnych celów – od pobierania stron internetowych powiązanych z adresami URL po zwykłe podnoszenie liczb do potęgi. W tym ćwiczeniu użyjesz transformacji map(), aby obliczyć sześcian każdej liczby z RDD numbRDD, który wcześniej utworzyłeś. Następnie zapiszesz wszystkie elementy w zmiennej i wyświetlisz wynik.

Pamiętaj, że masz już dostęp do SparkContext sc oraz numbRDD w swoim środowisku pracy.

Instrukcje

100 XP
  • Utwórz transformację map(), która oblicza sześcian każdej liczby z numbRDD.
  • Zbierz wyniki w zmiennej numbers_all.
  • Wyświetl dane wyjściowe ze zmiennej numbers_all.