Coder des variables catégorielles
Dans les exercices précédents, vous avez pratiqué la création de matrices de modèle pour des variables continues et l’application de transformations. Dans cet exercice, vous allez vous entraîner aux différentes manières de coder une variable catégorielle.
Les données catégorielles permettent d’analyser et de comparer des relations selon différents groupes ou facteurs. Le choix du groupe de référence est donc important et, selon l’étude, vous pouvez souhaiter le modifier par rapport à la valeur par défaut. Une raison fréquente pour changer le groupe de référence est de rendre l’interprétation des coefficients plus pertinente et intéressante pour l’étude.
Pour cet exercice, vous allez reprendre le jeu de données crab où color et spine sont des variables catégorielles.
Le jeu de données crab est préchargé dans l’espace de travail.
Cet exercice fait partie du cours
Modèles linéaires généralisés en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import function dmatrix
from ____ import ____
# Construct and print model matrix for color as categorical variable
print(____('____', data = ____,
return_type = 'dataframe').head())