Impostare indici multilivello
Gli indici possono anche essere creati da più colonne, formando un indice a più livelli (a volte chiamato indice gerarchico). L’uso di questi strumenti comporta un compromesso.
Il vantaggio è che gli indici multilivello facilitano l’analisi di variabili categoriche annidate. Ad esempio, in uno studio clinico potresti avere un gruppo di controllo e uno di trattamento, e ogni soggetto appartiene a uno di questi gruppi; in questo senso, possiamo dire che un soggetto è “annidato” all’interno del gruppo di trattamento. Allo stesso modo, nel set di dati sulle temperature, la città è contenuta nel Paese, quindi una città è “annidata” all’interno del Paese.
Il problema principale è che il codice per gestire gli indici è diverso da quello per gestire le colonne, quindi è necessario imparare due sintassi distinte e prestare attenzione a come sono rappresentati i dati.
pandas
è già stato caricato come pd
. E temperatures
è a tua disposizione.
Questo esercizio fa parte del corso
Manipolazione dei dati con pandas
Istruzioni dell'esercizio
- Imposta l'indice di
temperatures
sulle colonne"country"
e"city"
", e poi assegna il risultato atemperatures_ind
". - Specifica due coppie di Paese/città da mantenere:
"Brazil"
/"Rio De Janeiro"
e"Pakistan"
/"Lahore"
, assegnandole arows_to_keep
. - Stampa e crea il sottoinsieme
temperatures_ind
perrows_to_keep
usando.loc[]
.
Esercizio pratico interattivo
Prova questo esercizio completando il codice di esempio.
# Index temperatures by country & city
temperatures_ind = ____
# List of tuples: Brazil, Rio De Janeiro & Pakistan, Lahore
rows_to_keep = [____]
# Subset for rows to keep
print(temperatures_ind.____)