ćwiczenie

RDD z kolekcji równoległych

Resilient Distributed Dataset (RDD) to podstawowa abstrakcja w Sparku. Jest to niezmienna, rozproszona kolekcja obiektów. Ponieważ RDD stanowi fundamentalny typ danych w Sparku, warto wiedzieć, jak go tworzyć. W tym ćwiczeniu stworzysz swój pierwszy RDD w PySparku na podstawie kolekcji słów.

Pamiętaj, że w swoim środowisku pracy masz już dostępny SparkContext sc.

Instrukcje

100 XP

Utwórz RDD o nazwie RDD z listy Pythona zawierającej słowa.
Sprawdź, czy utworzony obiekt jest RDD.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie