1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy Big Data z PySpark

Connected

ćwiczenie

RDD z kolekcji równoległych

Resilient Distributed Dataset (RDD) to podstawowa abstrakcja w Sparku. Jest to niezmienna, rozproszona kolekcja obiektów. Ponieważ RDD stanowi fundamentalny typ danych w Sparku, warto wiedzieć, jak go tworzyć. W tym ćwiczeniu stworzysz swój pierwszy RDD w PySparku na podstawie kolekcji słów.

Pamiętaj, że w swoim środowisku pracy masz już dostępny SparkContext sc.

Instrukcje

100 XP
  • Utwórz RDD o nazwie RDD z listy Pythona zawierającej słowa.
  • Sprawdź, czy utworzony obiekt jest RDD.