Lasy losowe: budowanie modelu

Podobnie jak gradient boosted trees, lasy losowe (random forests) to kolejny rodzaj modelu zespołowego (ensemble model). Oznacza to, że korzystają z wielu prostszych modeli (znów drzew decyzyjnych) i łączą je w jeden, lepszy model. Zamiast iteracyjnego uruchamiania tego samego modelu, lasy losowe trenują wiele osobnych modeli równolegle – każdy na losowo wybranym podzbiorze danych i losowo wybranym podzbiorze cech. Końcowe predykcje powstają przez agregację wyników z poszczególnych modeli.

Funkcja lasów losowych w sparklyr nosi nazwę ml_random_forest(). Jej składnia jest identyczna jak w przypadku ml_gradient_boosted_trees() (zajrzyj do pierwszego ćwiczenia tego rozdziału, jeśli potrzebujesz przypomnienia).

Połączenie ze Sparkiem zostało już dla ciebie utworzone jako spark_conn. Tibble powiązany z połączonymi i przefiltrowanymi danymi metadanych utworów oraz danymi barwy dźwięku (timbre), przechowywanymi w Sparku, jest predefiniowany jako track_data_to_model_tbl.

Powtórz analizę predykcji roku wydania, tym razem używając modelu lasów losowych.
- Pobierz kolumny timbre z track_data_to_model_tbl i przypisz wynik do feature_colnames.
- Utwórz formułę modelu za pomocą reformulate().
- Uruchom model lasów losowych i przypisz wynik do random_forest_model.

ćwiczenie

Lasy losowe: budowanie modelu

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie