Wzorzec połącz–pracuj–rozłącz

Praca z sparklyr jest bardzo podobna do pracy z dplyr, gdy dane znajdują się w bazie danych. W rzeczywistości sparklyr konwertuje kod R na kod SQL przed przekazaniem go do Sparka.

Typowy przepływ pracy składa się z trzech kroków:

Połącz się ze Sparkiem za pomocą spark_connect().
Wykonaj pracę.
Zamknij połączenie ze Sparkiem za pomocą spark_disconnect().

W tym ćwiczeniu wykonasz najprostszą możliwą operację: zwrócisz wersję uruchomionego Sparka za pomocą spark_version().

spark_connect() przyjmuje URL wskazujący lokalizację Sparka. W przypadku klastra lokalnego (jak w tym ćwiczeniu) URL powinien być równy "local". W przypadku klastra zdalnego (na innej maszynie, zazwyczaj wydajnym serwerze) będzie to adres URL wraz z numerem portu.

spark_version() i spark_disconnect() przyjmują połączenie ze Sparkiem jako jedyny argument.

Jedna ważna uwaga: nawiązanie połączenia z klastrem zajmuje kilka sekund, dlatego regularne łączenie i rozłączanie jest niepraktyczne. W DataCamp musisz łączyć się na nowo przy każdym ćwiczeniu, ale gdy zaczniesz używać sparklyr we własnej pracy, najlepiej utrzymywać połączenie otwarte przez cały czas pracy ze Sparkiem.

Załaduj pakiet sparklyr za pomocą library().
Połącz się ze Sparkiem, wywołując spark_connect() z argumentem master = "local". Przypisz wynik do zmiennej spark_conn.
Pobierz wersję Sparka za pomocą spark_version() z argumentem sc = spark_conn.
Rozłącz się ze Sparkiem za pomocą spark_disconnect() z argumentem sc = spark_conn.

ćwiczenie

Wzorzec połącz–pracuj–rozłącz

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie