Modelleren met categorische variabele
In eerdere oefeningen heb je een logistisch regressiemodel gefit met color als verklarende variabele naast width, waarbij je color als kwantitatieve variabele behandelde. In deze oefening behandel je color als een categorische variabele. Bij het opstellen van de modelmatrix wordt color dan gecodeerd in 3 variabelen met 0/1-codering.
Onthoud dat de standaardcodering in dmatrix() de eerste groep als referentiegroep gebruikt. Om de modelmatrix als dataframe te bekijken, stel je een extra argument in dmatrix(), namelijk return_type, in op 'dataframe'.
De variabele color heeft een natuurlijke ordening als volgt:
1: medium light
2: medium
3: medium dark
4: dark
De crab-gegevensset is vooraf ingeladen in de werkruimte.
Deze oefening maakt deel uit van de cursus
Generalized Linear Models in Python
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Construct model matrix
model_matrix = ____('C(____, ____(____))' , data = ____,
return_type = 'dataframe')
# Print first 5 rows of model matrix dataframe
print(____.____)
# Fit and print the results of a glm model with the above model matrix configuration
model = ____('____ ~ ____(____, ____(____))', data = ____,
family = ____).____
print(____.____)