1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Pobieranie danych z powrotem ze Spark

W ćwiczeniu „Badanie struktury tibbles" w rozdziale 1 zobaczyłeś, że tibbles nie przechowują kopii danych. Dane pozostają w Spark, a tibble jedynie zapamiętuje informacje o tym, co chciałby z niego pobrać.

Czasem jednak warto przenieść dane ze Spark do R. Część danych jest już przenoszona do R przy ich wyświetlaniu. Musisz jednak zebrać cały zbiór danych, gdy chcesz go zwizualizować lub skorzystać z techniki modelowania niedostępnej w Spark. (R oferuje przecież największy wybór dostępnych modeli spośród wszystkich języków programowania.)

Aby pobrać dane – czyli przenieść je ze Spark do R – wywołaj collect().

Instrukcje

100 XP

Połączenie ze Spark zostało już utworzone i jest dostępne jako spark_conn. Tibble powiązany z metadanymi utworów przechowywanymi w Spark jest wstępnie zdefiniowany jako track_metadata_tbl.

  • Przefiltruj wiersze track_metadata_tbl, gdzie artist_familiarity jest większe niż 0.9, i przypisz wyniki do results.
  • Wyświetl klasę obiektu results, zwracając uwagę, że jest to tbl_lazy (używane dla danych zdalnych).
  • Zbierz wyniki za pomocą funkcji collect() i przypisz je do collected.
  • Wyświetl klasę obiektu collected, zwracając uwagę, że jest to tbl_df (używane dla danych lokalnych).