1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Łączymy dane

Cechy używane przez modele, które zaraz uruchomisz, znajdują się w zbiorze timbre, natomiast zmienna odpowiedzi – rok wydania – pochodzi ze zbioru track_metadata. Przed uruchomieniem modelu musisz połączyć te dwa zbiory danych. Ponieważ każdemu wierszowi w jednym zbiorze odpowiada dokładnie jeden wiersz w drugim, odpowiedni będzie tu złączenie wewnętrzne (inner join).

Pozostało jeszcze jedno zadanie związane z czyszczeniem danych. Kolumna year zawiera liczby całkowite, a funkcje modelowania w Spark wymagają liczb rzeczywistych. Należy przekonwertować kolumnę roku na typ numeric.

Instrukcje

100 XP

Połączenie ze Spark zostało już utworzone jako spark_conn. Tibble'e dołączone do metadanych utworów oraz danych barwy dźwięku przechowywanych w Spark zostały wstępnie zdefiniowane odpowiednio jako track_metadata_tbl i timbre_tbl.

  • Wykonaj złączenie wewnętrzne (inner join) metadanych utworów z danymi barwy dźwięku po kolumnie track_id.
  • Przekonwertuj kolumnę year na typ numeric.