Mise en place d'index multiniveaux

Les index peuvent également être constitués de plusieurs colonnes, formant ainsi un index à plusieurs niveaux (parfois appelé index hiérarchique). L'utilisation de ces derniers présente un inconvénient.

L'avantage est que les index multiniveaux permettent de raisonner plus naturellement sur des variables catégorielles imbriquées. Par exemple, dans un essai clinique, vous pouvez avoir des groupes de contrôle et des groupes de traitement. Chaque sujet testé appartient alors à l'un ou l'autre groupe, et nous pouvons dire qu'un sujet testé est imbriqué dans le groupe de traitement. De même, dans l'ensemble de données sur les températures, la ville est située dans le pays, de sorte que nous pouvons dire qu'une ville est imbriquée dans un pays.

Le principal inconvénient est que le code pour manipuler les index est différent du code pour manipuler les colonnes, vous devez donc apprendre deux syntaxes et garder une trace de la façon dont vos données sont représentées.

pandas est chargé en tant que pd. temperatures est disponible.

Cet exercice fait partie du cours

<cours>Manipulation de données avec pandas</cours>

Voir le cours

Instructions de l’exercice

Définissez l'index de temperatures dans les colonnes "country" et "city", et affectez-le à temperatures_ind.
Indiquez deux paires pays/ville à conserver : "Brazil"/"Rio De Janeiro" et "Pakistan"/"Lahore", en les affectant à rows_to_keep.
Affichez temperatures_ind et créez des sous-ensembles dans rows_to_keep en utilisant .loc[].

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Index temperatures by country & city
temperatures_ind = ____

# List of tuples: Brazil, Rio De Janeiro & Pakistan, Lahore
rows_to_keep = [____]

# Subset for rows to keep
print(temperatures_ind.____)

Modifier et exécuter le code