Aan de slagGa gratis aan de slag

Lineaire regressie met onvolledige gegevens

Ontbrekende gegevens komen vaak voor en er goed mee omgaan is ontzettend belangrijk. Als je ontbrekende datapunten negeert of verkeerd invult, kunnen modellen zich onverwacht gedragen en raken voorspellingen en gevolgtrekkingen vertekend.

In dit hoofdstuk werk je met de biopics-gegevensset. Die bevat informatie over een aantal biografische films, inclusief hun opbrengsten, kenmerken van de hoofdpersoon en enkele andere variabelen. Een deel van de datapunten ontbreekt echter. De oorspronkelijke data komt uit het R-pakket fivethirtyeight, maar in deze cursus werk je met een licht voorbewerkte versie.

In deze oefening maak je kennis met de gegevensset en pas je een lineair regressiemodel toe om de opbrengst van een film te verklaren. Laten we beginnen!

Deze oefening maakt deel uit van de cursus

Omgaan met missende data met imputaties in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print first 10 observations
___(biopics, ___)
Code bewerken en uitvoeren