Session Ready
Exercise

Qu'est ce qu'un facteur et pourquoi devrais-je en utiliser ?

Dans ce chapitre, vous plongez dans le monde magnifique des facteurs.

Le terme de factor se réfère à un type de données statistiques utilisé pour stocker les variables nominales (on dit aussi qualitatives ou catégorielles). La différence entre une variable catégorielle et une variable continue, c'est qu'une variable catégorielle ne peut contenir qu'un nombre limité de catégories. Une variable continue, quant à elle, peut correspondre à un nombre infini de valeurs.

Il est important que R sache s'il traite une variable continue ou une variable catégorielle, car les modèles statistiques, que vous allez développer dans l'avenir traitent les deux types différemment. (Vous verrez plus tard pourquoi c'est le cas.)

La variable 'Sexe' en est un bon exemple d'une variable qualitative. Un individu humain peut être 'Masculin' ou 'Féminin', faisant abstraction des intersexués. 'Masculin' et 'Féminin' sont, de manière simplifiée, les deux valeurs de la variable qualitative 'Genre' et chaque valeur de cette variable ne peut contenir que 'Masculin' et 'Féminin'.

Pour créer des factor dans R, utilisez la fonction factor(). La première chose que vous devez faire est de créer un vecteur qui contient toutes les observations qui appartiennent à un nombre limité de catégories. Par exemple, genre_vector contient le sexe de 5 personnes différentes :

genre_vector <- c("Masculin","Feminin","Feminin","Masculin","Masculin")

Il est clair ici qu'il y a 2 catégories, ou dans R des 'factor levels', il s' agit de "Masculin" et "Feminin".

La fonction factor() va encoder le vecteur comme un factor :

factor_genre_vector <- factor(genre_vector)
Instructions
100 XP

Assigner, à factor_genre_vector, le vecteur de caractères genre_vector converti en un factor. Regardez la console et notez que R va afficher les niveaux de facteur en dessous des valeurs. Ils sont précédé de la mention levels.