Identifier les variables catégorielles
Les variables catégorielles sont des variables qui prennent un nombre limité de valeurs décrivant une catégorie. Elles peuvent être de deux types :
- Ordinales – variables avec deux catégories ou plus qui peuvent être classées ou ordonnées (p. ex. « faible », « moyen », « élevé »)
- Nominales – variables avec deux catégories ou plus qui n’ont pas d’ordre intrinsèque (p. ex. « hommes », « femmes »)
Dans cet exercice, vous allez repérer les variables catégorielles dans le jeu de données. Pour cela, vous commencerez par importer la bibliothèque pandas et lire le fichier CSV nommé "turnover.csv". Ensuite, après avoir consulté les 5 premières lignes et constaté (visuellement) qu’il existe des valeurs non numériques dans le DataFrame, vous récupérerez des informations sur les types de variables disponibles dans le jeu de données.
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en Python
Instructions
- Importez
pandas(enpd) pour lire les données. - Lisez le fichier
"turnover.csv"et enregistrez-le dans un DataFrame appelédata. - Jetez un coup d’œil rapide aux 5 premières lignes des données.
- Obtenez des informations avec
info()sur les types de variables présentes dans les données.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import pandas (as pd) to read the data
import ____ as pd
# Read "turnover.csv" and save it in a DataFrame called data
data = pd.____("turnover.csv")
# Take a quick look to the first 5 rows of data
print(data.____())
# Get some information on the types of variables in data
data.____()