Aan de slagGa gratis aan de slag

Afweging tussen snelheid en nauwkeurigheid

In de laatste video heb je gezien dat er twee knoppen zijn waarmee je de prestaties van random forests kunt bijstellen:

  • Aantal beslisbomen in elk forest.
  • Aantal variabelen dat wordt gebruikt om te splitsen binnen beslisbomen.

Het verhogen van beide kan de nauwkeurigheid van het imputatiemodel verbeteren, maar het kost ook meer rekentijd. In deze oefening ga je dit zelf verkennen door missForest() twee keer op de biopics-data toe te passen met verschillende instellingen. Let tijdens het volgen van de instructies op de fouten die je laat afdrukken en op de tijd die de code nodig heeft om uit te voeren.

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set number of trees to 5 and number of variables used for splitting to 2
imp_res <- missForest(biopics, ___ = ___, ___ = ___)

# Print the resulting imputation errors
print(___)
Code bewerken en uitvoeren