Kopiowanie danych do Sparka

Zanim zaczniesz pracować ze Sparkiem, musisz najpierw dostarczyć do niego dane. sparklyr udostępnia funkcje takie jak spark_read_csv(), które wczytują plik CSV bezpośrednio do Sparka. Ogólnie przydatna jest też możliwość kopiowania danych z R do Sparka – służy do tego funkcja copy_to() z pakietu dplyr. Uwaga: kopiowanie danych jest z natury powolnym procesem. Właśnie dlatego wiele strategii optymalizacji wydajności przy dużych zbiorach danych sprowadza się do tego, by unikać przenoszenia danych z miejsca na miejsce.

copy_to() przyjmuje dwa argumenty: połączenie ze Sparkiem (dest) oraz ramkę danych (df), którą chcesz do niego skopiować.

Po skopiowaniu danych warto upewnić się, że operacja przebiegła pomyślnie. Listę wszystkich ramek danych przechowywanych w Sparku możesz wyświetlić za pomocą src_tbls() – funkcja ta przyjmuje tylko jeden argument: połączenie ze Sparkiem (x).

W całym kursie będziesz analizować metadane utworów z Million Song Dataset. Spark bez problemu obsługuje zbiory z milionami wierszy, ale żeby wszystko działało sprawnie, będziesz korzystać z podzbioru tysiąca utworów. Warto wyjaśnić terminologię: utwór (ang. track) odpowiada jednemu wierszowi w zbiorze danych. W tym tysiącoelementowym zbiorze każdy utwór odpowiada jednej piosence (w pełnym zbiorze miliona wierszy zdarzały się duplikaty).

W twoim środowisku pracy jest już zdefiniowana ramka danych track_metadata zawierająca tytuł, nazwę wykonawcy i inne metadane dla 1000 utworów.

Użyj funkcji str(), aby zbadać strukturę zbioru danych track_metadata.
Połącz się z lokalnym klastrem Spark i zapisz połączenie w zmiennej spark_conn.
Skopiuj track_metadata do klastra Spark, używając funkcji copy_to().
Sprawdź, które ramki danych są dostępne w Sparku, używając src_tbls().
Rozłącz się ze Sparkiem.

ćwiczenie

Kopiowanie danych do Sparka

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie