Modelleren met categorische variabele
In eerdere oefeningen heb je een logistisch regressiemodel gefit met color als verklarende variabele naast width, waarbij je color als kwantitatieve variabele behandelde. In deze oefening behandel je color als een categorische variabele. Bij het opstellen van de modelmatrix wordt color dan gecodeerd in 3 variabelen met 0/1-codering.
Onthoud dat de standaardcodering in dmatrix() de eerste groep als referentiegroep gebruikt. Om de modelmatrix als dataframe te bekijken, stel je een extra argument in dmatrix(), namelijk return_type, in op 'dataframe'.
De variabele color heeft een natuurlijke ordening als volgt:
1: medium light
2: medium
3: medium dark
4: dark
De crab-gegevensset is vooraf ingeladen in de werkruimte.
Deze oefening maakt deel uit van de cursus
Generalized Linear Models in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Construct model matrix
model_matrix = ____('C(____, ____(____))' , data = ____,
return_type = 'dataframe')
# Print first 5 rows of model matrix dataframe
print(____.____)
# Fit and print the results of a glm model with the above model matrix configuration
model = ____('____ ~ ____(____, ____(____))', data = ____,
family = ____).____
print(____.____)