Berekeningen in een draaitabel
Draaitabellen staan vol met samenvattende statistieken, maar dat is vaak slechts de eerste stap naar echte inzichten. Meestal moet je er nog verdere berekeningen op uitvoeren. Een veelvoorkomende stap is zoeken naar de rijen of kolommen met de hoogste of laagste waarde.
Herinner je uit hoofdstuk 1 dat je eenvoudig subsets kunt maken van een Series of DataFrame om interessante rijen te vinden met een logische voorwaarde tussen vierkante haken. Bijvoorbeeld: series[series > value].
pandas is geladen als pd en de DataFrame temp_by_country_city_vs_year is beschikbaar.
De .head() van dit DataFrame staat hieronder, met slechts een paar jaarkolommen getoond:
| country | city | 2000 | 2001 | 2002 | … | 2013 |
|---|---|---|---|---|---|---|
| Afghanistan | Kabul | 15.823 | 15.848 | 15.715 | … | 16.206 |
| Angola | Luanda | 24.410 | 24.427 | 24.791 | … | 24.554 |
| Australia | Melbourne | 14.320 | 14.180 | 14.076 | … | 14.742 |
| Sydney | 17.567 | 17.854 | 17.734 | … | 18.090 | |
| Bangladesh | span translate="no">Dhaka | 25.905 | 25.931 | 26.095 | … | 26.587 |
Deze oefening maakt deel uit van de cursus
Datamanipulatie met pandas
Oefeninstructies
- Bereken de gemiddelde temperatuur voor elk jaar en wijs toe aan
mean_temp_by_year. - Filter
mean_temp_by_yearvoor het jaar met de hoogste gemiddelde temperatuur. - Bereken de gemiddelde temperatuur voor elke stad (over de kolommen) en wijs toe aan
mean_temp_by_city. - Filter
mean_temp_by_cityvoor de stad met de laagste gemiddelde temperatuur.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Get the worldwide mean temp by year
mean_temp_by_year = temp_by_country_city_vs_year.____
# Filter for the year that had the highest mean temp
print(mean_temp_by_year[____])
# Get the mean temp by city
mean_temp_by_city = temp_by_country_city_vs_year.____
# Filter for the city that had the lowest mean temp
print(mean_temp_by_city[____])