Multi-level indexen instellen
Indexen kunnen ook uit meerdere kolommen worden opgebouwd: een multi-level index (ook wel hiërarchische index genoemd). Daar zitten voor- en nadelen aan.
Het voordeel is dat multi-level indexen het natuurlijker maken om na te denken over geneste categorische variabelen. In een klinische proef heb je bijvoorbeeld controle- en behandelingsgroepen. Elke proefpersoon hoort bij één van die groepen; je kunt dus zeggen dat een proefpersoon genest is binnen de behandelingsgroep. Op dezelfde manier ligt in de temperatuurdataset de stad in het land, dus kun je zeggen dat een stad genest is binnen het land.
Het belangrijkste nadeel is dat de code om indexen te manipuleren anders is dan de code om kolommen te manipuleren. Je moet dus twee syntaxissen leren en bijhouden hoe je gegevens zijn weergegeven.
pandas is geladen als pd. temperatures is beschikbaar.
Deze oefening maakt deel uit van de cursus
Datamanipulatie met pandas
Oefeninstructies
- Zet de index van
temperaturesop de kolommen"country"en"city", en wijs dit toe aantemperatures_ind. - Geef twee land/stad-paren op die je wilt behouden:
"Brazil"/"Rio De Janeiro"en"Pakistan"/"Lahore", en wijs dit toe aanrows_to_keep. - Print en maak een subset van
temperatures_indvoorrows_to_keepmet.loc[].
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Index temperatures by country & city
temperatures_ind = ____
# List of tuples: Brazil, Rio De Janeiro & Pakistan, Lahore
rows_to_keep = [____]
# Subset for rows to keep
print(temperatures_ind.____)