1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark z pakietem sparklyr w R

Connected

ćwiczenie

Lasy losowe: budowanie modelu

Podobnie jak gradient boosted trees, lasy losowe (random forests) to kolejny rodzaj modelu zespołowego (ensemble model). Oznacza to, że korzystają z wielu prostszych modeli (znów drzew decyzyjnych) i łączą je w jeden, lepszy model. Zamiast iteracyjnego uruchamiania tego samego modelu, lasy losowe trenują wiele osobnych modeli równolegle – każdy na losowo wybranym podzbiorze danych i losowo wybranym podzbiorze cech. Końcowe predykcje powstają przez agregację wyników z poszczególnych modeli.

Funkcja lasów losowych w sparklyr nosi nazwę ml_random_forest(). Jej składnia jest identyczna jak w przypadku ml_gradient_boosted_trees() (zajrzyj do pierwszego ćwiczenia tego rozdziału, jeśli potrzebujesz przypomnienia).

Instrukcje

100 XP

Połączenie ze Sparkiem zostało już dla ciebie utworzone jako spark_conn. Tibble powiązany z połączonymi i przefiltrowanymi danymi metadanych utworów oraz danymi barwy dźwięku (timbre), przechowywanymi w Sparku, jest predefiniowany jako track_data_to_model_tbl.

  • Powtórz analizę predykcji roku wydania, tym razem używając modelu lasów losowych.
    • Pobierz kolumny timbre z track_data_to_model_tbl i przypisz wynik do feature_colnames.
    • Utwórz formułę modelu za pomocą reformulate().
    • Uruchom model lasów losowych i przypisz wynik do random_forest_model.