Mise en place d'index multiniveaux
Les index peuvent également être constitués de plusieurs colonnes, formant ainsi un index à plusieurs niveaux (parfois appelé index hiérarchique). L'utilisation de ces derniers présente un inconvénient.
L'avantage est que les index multiniveaux permettent de raisonner plus naturellement sur des variables catégorielles imbriquées. Par exemple, dans un essai clinique, vous pouvez avoir des groupes de contrôle et des groupes de traitement. Chaque sujet testé appartient alors à l'un ou l'autre groupe, et nous pouvons dire qu'un sujet testé est imbriqué dans le groupe de traitement. De même, dans l'ensemble de données sur les températures, la ville est située dans le pays, de sorte que nous pouvons dire qu'une ville est imbriquée dans un pays.
Le principal inconvénient est que le code pour manipuler les index est différent du code pour manipuler les colonnes, vous devez donc apprendre deux syntaxes et garder une trace de la façon dont vos données sont représentées.
pandas
est chargé en tant que pd
. temperatures
est disponible.
Cet exercice fait partie du cours
Manipulation de données avec pandas
Instructions
- Définissez l'index de
temperatures
dans les colonnes"country"
et"city"
, et affectez-le àtemperatures_ind
. - Indiquez deux paires pays/ville à conserver :
"Brazil"
/"Rio De Janeiro"
et"Pakistan"
/"Lahore"
, en les affectant àrows_to_keep
. - Affichez
temperatures_ind
et créez des sous-ensembles dansrows_to_keep
en utilisant.loc[]
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Index temperatures by country & city
temperatures_ind = ____
# List of tuples: Brazil, Rio De Janeiro & Pakistan, Lahore
rows_to_keep = [____]
# Subset for rows to keep
print(temperatures_ind.____)