Variantie en standaarddeviatie
Variantie en standaarddeviatie zijn twee van de meest gebruikte manieren om de spreiding van een variabele te meten. In deze oefening ga je ze berekenen. Spreiding is belangrijk omdat het helpt verwachtingen te vormen. Stel dat een verkoper gemiddeld 20 producten per dag verkoopt, maar een standaarddeviatie van 10 producten heeft: dan zijn er waarschijnlijk dagen met 40 verkopen, maar ook dagen met maar één of twee. Zulke informatie is belangrijk, zeker bij het doen van voorspellingen.
pandas is geïmporteerd als pd, numpy als np, en matplotlib.pyplot als plt; de DataFrame food_consumption is ook beschikbaar.
Deze oefening maakt deel uit van de cursus
Inleiding tot statistiek in Python
Oefeninstructies
- Bereken de variantie en standaarddeviatie van
co2_emissionvoor elkefood_categorymet de methodes.groupby()en.agg(); vergelijk de waarden van variantie en standaarddeviatie. - Maak een histogram van
co2_emissionvoor debeefinfood_categoryen toon de plot. - Maak een histogram van
co2_emissionvoor deeggsinfood_categoryen toon de plot.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print variance and sd of co2_emission for each food_category
print(food_consumption.____('____')['____'].agg([____]))
# Create histogram of co2_emission for food_category 'beef'
food_consumption[____]['____'].____()
plt.show()
# Create histogram of co2_emission for food_category 'eggs'
plt.figure()
food_consumption[____]['____'].____()
plt.show()