Aan de slagBegin gratis

Afweging tussen snelheid en nauwkeurigheid

In de laatste video heb je gezien dat er twee knoppen zijn waarmee je de prestaties van random forests kunt bijstellen:

  • Aantal beslisbomen in elk forest.
  • Aantal variabelen dat wordt gebruikt om te splitsen binnen beslisbomen.

Het verhogen van beide kan de nauwkeurigheid van het imputatiemodel verbeteren, maar het kost ook meer rekentijd. In deze oefening ga je dit zelf verkennen door missForest() twee keer op de biopics-data toe te passen met verschillende instellingen. Let tijdens het volgen van de instructies op de fouten die je laat afdrukken en op de tijd die de code nodig heeft om uit te voeren.

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)

# Print the resulting imputation errors
print(___)
Code bewerken en uitvoeren