Tworzenie sesji SparkSession

W tym ćwiczeniu uruchomisz lokalny klaster Spark, który wykorzysta wszystkie dostępne rdzenie. Dostęp do klastra będzie możliwy za pośrednictwem obiektu SparkSession.

Klasa SparkSession posiada atrybut builder, który jest instancją klasy Builder. Klasa Builder udostępnia trzy ważne metody, które pozwalają:

określić lokalizację węzła master;
nadać aplikacji nazwę (opcjonalnie);
pobrać istniejącą sesję SparkSession lub – jeśli jej nie ma – utworzyć nową.

Klasa SparkSession ma atrybut version, który zwraca wersję Sparka. Uwaga: Do wersji można też uzyskać dostęp przez atrybut __version__ modułu pyspark.

Więcej informacji o SparkSession znajdziesz tutaj.

Po zakończeniu pracy z klastrem warto go wyłączyć – dzięki temu zwolnione zasoby będą dostępne dla innych procesów.

Uwagi:

Warto zajrzeć do slajdów z lekcji dostępnych w panelu Slajdy obok powłoki IPython.
Wersja Sparka użyta w ćwiczeniu różni się od tej z lekcji – platforma ćwiczeniowa została zaktualizowana do nowszej wersji Sparka.

Zaimportuj klasę SparkSession z modułu pyspark.sql.
Utwórz obiekt SparkSession połączony z lokalnym klastrem. Użyj wszystkich dostępnych rdzeni i nadaj aplikacji nazwę 'test'.
Skorzystaj z atrybutu version obiektu SparkSession, aby pobrać wersję Sparka działającą na klastrze. Uwaga: Wersja może różnić się od tej pokazanej w prezentacji – jest ona od czasu do czasu aktualizowana.
Wyłącz klaster.

Exercise

Tworzenie sesji SparkSession

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instrukcje

Exercise