Mehrstufige Indizes setzen
Indizes können aus mehreren Spalten bestehen und einen mehrstufigen Index bilden, der manchmal auch als hierarchischer Index bezeichnet wird. Bei ihrer Verwendung ist aber ein Kompromiss nötig.
Der Vorteil ist, dass mehrstufige Indizes den Umgang mit verschachtelten kategorialen Variablen intuitiver gestalten. Wenn es zum Beispiel in einer klinischen Studie eine Kontroll- und eine Behandlungsgruppe gibt, gehört jede Versuchsperson sowohl zur Studie insgesamt als auch zu einer der hierarchisch untergeordneten Teilgruppen. Ähnlich verhält es sich mit dem Temperatur-Datensatz, bei dem es Länder und innerhalb dieser Länder auch Städte gibt.
Der wesentliche Nachteil ist jedoch, dass der Code bei der Nutzung von Indizes eine andere Syntax erfordert als der Code beim normalen Verweis auf Spalten. Du musst also zwei Syntaxen lernen und den Überblick darüber behalten, wie deine Daten dargestellt werden.
pandas
ist als pd
geladen und temperatures
ist ebenfalls verfügbar.
Diese Übung ist Teil des Kurses
Datenbearbeitung mit pandas
Anleitung zur Übung
- Setze den Index von
temperatures
auf die Spalten"country"
und"city"
und weise diestemperatures_ind
zu. - Gib zwei Land/Stadt-Paare an, die beibehalten werden sollen:
"Brazil"
/"Rio De Janeiro"
und"Pakistan"
/"Lahore"
. Weise diesrows_to_keep
zu. - Erstelle mit
.loc[]
anhand vonrows_to_keep
eine Teilmenge vontemperatures_ind
und gib sie aus.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Index temperatures by country & city
temperatures_ind = ____
# List of tuples: Brazil, Rio De Janeiro & Pakistan, Lahore
rows_to_keep = [____]
# Subset for rows to keep
print(temperatures_ind.____)