1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Wzorzec połącz–pracuj–rozłącz

Praca z sparklyr jest bardzo podobna do pracy z dplyr, gdy dane znajdują się w bazie danych. W rzeczywistości sparklyr konwertuje kod R na kod SQL przed przekazaniem go do Sparka.

Typowy przepływ pracy składa się z trzech kroków:

  1. Połącz się ze Sparkiem za pomocą spark_connect().
  2. Wykonaj pracę.
  3. Zamknij połączenie ze Sparkiem za pomocą spark_disconnect().

W tym ćwiczeniu wykonasz najprostszą możliwą operację: zwrócisz wersję uruchomionego Sparka za pomocą spark_version().

spark_connect() przyjmuje URL wskazujący lokalizację Sparka. W przypadku klastra lokalnego (jak w tym ćwiczeniu) URL powinien być równy "local". W przypadku klastra zdalnego (na innej maszynie, zazwyczaj wydajnym serwerze) będzie to adres URL wraz z numerem portu.

spark_version() i spark_disconnect() przyjmują połączenie ze Sparkiem jako jedyny argument.

Jedna ważna uwaga: nawiązanie połączenia z klastrem zajmuje kilka sekund, dlatego regularne łączenie i rozłączanie jest niepraktyczne. W DataCamp musisz łączyć się na nowo przy każdym ćwiczeniu, ale gdy zaczniesz używać sparklyr we własnej pracy, najlepiej utrzymywać połączenie otwarte przez cały czas pracy ze Sparkiem.

Instrukcje

100 XP
  • Załaduj pakiet sparklyr za pomocą library().
  • Połącz się ze Sparkiem, wywołując spark_connect() z argumentem master = "local". Przypisz wynik do zmiennej spark_conn.
  • Pobierz wersję Sparka za pomocą spark_version() z argumentem sc = spark_conn.
  • Rozłącz się ze Sparkiem za pomocą spark_disconnect() z argumentem sc = spark_conn.