Sestavení kompletního modelu náhodného lesa

Modely náhodného lesa přirozeně provádějí výběr příznaků, protože při stavbě mnoha podstromů vycházejí z náhodných podmnožin dostupných příznaků. Jedním ze způsobů, jak pochopit důležitost příznaků, je sestavit model a z něj důležitosti příznaků extrahovat. V tomto cvičení použiješ data Healthcare Job Attrition k natrénování klasifikačního modelu rand_forest(), ze kterého pak důležitosti příznaků vyčteš. Aby byly důležitosti příznaků dostupné, nezapomeň model vytvořit s parametrem importance = "impurity". K dispozici máš sady train a test.

Balíčky tidyverse, tidymodels a vip jsou již načteny.

Toto cvičení je součástí kurzu

Redukce dimenzionality v R

Zobrazit kurz

Pokyny k cvičení

Definuj klasifikační model náhodného lesa se 200 stromy, ze kterého bude možné extrahovat důležitosti příznaků.
Natrénuj model náhodného lesa na všech prediktorech.
Připoj předpovědi k testovací sadě.
Vypočítej metriku F1.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Specify the random forest model
rf_spec <- ___(mode = "___", ___ = ___) %>% 
  set_engine("___", ___ = "___") 

# Fit the random forest model with all predictors
rf_fit <- ___ %>% 
  ___(___, data = ___)

# Create the test set prediction data frame
predict_df <- ___ %>% 
  bind_cols(predict = ___(___, ___))

# Calculate F1 performance
f_meas(predict_df, ___, .pred_class)

Upravit a spustit kód