CommencerCommencer gratuitement

Identifier les variables catégorielles

Les variables catégorielles sont des variables qui prennent un nombre limité de valeurs décrivant une catégorie. Elles peuvent être de deux types :

  • Ordinales – variables avec deux catégories ou plus qui peuvent être classées ou ordonnées (p. ex. « faible », « moyen », « élevé »)
  • Nominales – variables avec deux catégories ou plus qui n’ont pas d’ordre intrinsèque (p. ex. « hommes », « femmes »)

Dans cet exercice, vous allez repérer les variables catégorielles dans le jeu de données. Pour cela, vous commencerez par importer la bibliothèque pandas et lire le fichier CSV nommé "turnover.csv". Ensuite, après avoir consulté les 5 premières lignes et constaté (visuellement) qu’il existe des valeurs non numériques dans le DataFrame, vous récupérerez des informations sur les types de variables disponibles dans le jeu de données.

Cet exercice fait partie du cours

Analytique RH : prédire l’attrition des employés en Python

Afficher le cours

Instructions

  • Importez pandas (en pd) pour lire les données.
  • Lisez le fichier "turnover.csv" et enregistrez-le dans un DataFrame appelé data.
  • Jetez un coup d’œil rapide aux 5 premières lignes des données.
  • Obtenez des informations avec info() sur les types de variables présentes dans les données.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import pandas (as pd) to read the data
import ____ as pd

# Read "turnover.csv" and save it in a DataFrame called data
data = pd.____("turnover.csv")

# Take a quick look to the first 5 rows of data
print(data.____())

# Get some information on the types of variables in data
data.____()
Modifier et exécuter le code