Modéliser avec une variable catégorielle
Dans les exercices précédents, vous avez ajusté un modèle de régression logistique avec color comme variable explicative en plus de width, en traitant color comme une variable quantitative. Dans cet exercice, vous allez traiter color comme une variable catégorielle qui, lors de la construction de la matrice du modèle, sera codée en 3 variables avec un encodage 0/1.
Rappelez-vous que l’encodage par défaut dans dmatrix() utilise le premier groupe comme groupe de référence. Pour visualiser la matrice du modèle sous forme de dataframe, un argument supplémentaire de dmatrix(), à savoir return_type, sera défini à 'dataframe'.
La variable color a un ordre naturel comme suit :
1 : medium light
2 : medium
3 : medium dark
4 : dark
Le jeu de données crab est préchargé dans l’espace de travail.
Cet exercice fait partie du cours
Modèles linéaires généralisés en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Construct model matrix
model_matrix = ____('C(____, ____(____))' , data = ____,
return_type = 'dataframe')
# Print first 5 rows of model matrix dataframe
print(____.____)
# Fit and print the results of a glm model with the above model matrix configuration
model = ____('____ ~ ____(____, ____(____))', data = ____,
family = ____).____
print(____.____)