Variantie en standaarddeviatie

Variantie en standaarddeviatie zijn twee van de meest gebruikte manieren om de spreiding van een variabele te meten. In deze oefening ga je ze berekenen. Spreiding is belangrijk omdat het helpt verwachtingen te vormen. Stel dat een verkoper gemiddeld 20 producten per dag verkoopt, maar een standaarddeviatie van 10 producten heeft: dan zijn er waarschijnlijk dagen met 40 verkopen, maar ook dagen met maar één of twee. Zulke informatie is belangrijk, zeker bij het doen van voorspellingen.

pandas is geïmporteerd als pd, numpy als np, en matplotlib.pyplot als plt; de DataFrame food_consumption is ook beschikbaar.

Deze oefening maakt deel uit van de cursus

Inleiding tot statistiek in Python

Oefeninstructies

Bereken de variantie en standaarddeviatie van co2_emission voor elke food_category met de methodes .groupby() en .agg(); vergelijk de waarden van variantie en standaarddeviatie.
Maak een histogram van co2_emission voor de beef in food_category en toon de plot.
Maak een histogram van co2_emission voor de eggs in food_category en toon de plot.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print variance and sd of co2_emission for each food_category
print(food_consumption.____('____')['____'].agg([____]))

# Create histogram of co2_emission for food_category 'beef'
food_consumption[____]['____'].____()
plt.show()

# Create histogram of co2_emission for food_category 'eggs'
plt.figure()
food_consumption[____]['____'].____()
plt.show()

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Inleiding tot statistiek in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Samenvattende statistieken geven je de tools om enorme gegevenssets terug te brengen tot de kern. In dit hoofdstuk verken je samenvattende statistieken zoals gemiddelde, mediaan en standaarddeviatie, en leer je ze correct te interpreteren. Je scherpt ook je kritisch denkvermogen, zodat je de beste samenvattende statistieken voor jouw gegevens kunt kiezen.

Exercise 1: Wat is statistiek?Exercise 2: Beschrijvende en inferentiële statistiek Exercise 3: Classificatie van gegevenstypen Exercise 4: Maten van centrale neiging Exercise 5: Gemiddelde en mediaan berekenen Exercise 6: Gemiddelde, mediaan en de vorm van de verdeling Exercise 7: Spreidingsmaten Exercise 8: Variantie en standaarddeviatie

Huidige oefening

Exercise 9: Kwartielen, kwantielen en kwintielen Exercise 10: Uitschieters vinden met de IQR

In dit hoofdstuk leer je willekeurige steekproeven genereren en toeval meten met behulp van kansrekening. Je werkt met verkoopgegevens uit de praktijk om de kans te berekenen dat een verkoper succesvol is. Tot slot gebruik je de binomiale verdeling om gebeurtenissen met binaire uitkomsten te modelleren.

Exercise 1: Hoe groot is de kans?Exercise 2: Met of zonder terugleggen?Exercise 3: Kansen berekenen Exercise 4: Steekproeven van deals Exercise 5: Discrete verdelingen Exercise 6: Een kansverdeling maken Exercise 7: Verdelingen herkennen Exercise 8: Verwachtingswaarde vs. steekproefgemiddelde Exercise 9: Continue verdelingen Exercise 10: Welke verdeling?Exercise 11: Back-ups van data Exercise 12: Wachttijden simuleren Exercise 13: De binomiale verdeling Exercise 14: Verkoopdeals simuleren Exercise 15: Binomiale kansen berekenen Exercise 16: Hoeveel sales worden er gewonnen?

Het is tijd om een van de belangrijkste kansverdelingen in de statistiek te verkennen: de normale verdeling. Je maakt histogrammen om normale verdelingen te plotten en krijgt inzicht in de centrale limietstelling, voordat je je kennis van statistische functies uitbreidt met de Poisson-, exponentiële en t-verdeling.

Exercise 1: De normale verdeling Exercise 2: Verdeling van Amirs verkopen Exercise 3: Kansen uit de normale verdeling Exercise 4: Verkoop simuleren onder nieuwe marktomstandigheden Exercise 5: Welke markt is beter?Exercise 6: De centrale limietstelling Exercise 7: Steekproefverdelingen visualiseren Exercise 8: De CLT in de praktijk Exercise 9: Het gemiddelde van gemiddelden Exercise 10: De Poisson-verdeling Exercise 11: Lambda herkennen Exercise 12: Respons op leads bijhouden Exercise 13: Meer kansverdelingen Exercise 14: Verdelingen slepen en neerzetten Exercise 15: Tijd tussen leads modelleren Exercise 16: De t-verdeling

In dit hoofdstuk leer je hoe je de sterkte van een lineaire relatie tussen twee variabelen kwantificeert, en onderzoek je hoe storende variabelen de relatie tussen twee andere variabelen kunnen beïnvloeden. Je ziet ook hoe het ontwerp van een onderzoek de resultaten kan beïnvloeden, bepaalt hoe de gegevens geanalyseerd moeten worden en mogelijk de betrouwbaarheid van je conclusies raakt.

Exercise 1: Correlatie Exercise 2: Raad de correlatie Exercise 3: Relaties tussen variabelen Exercise 4: Kanttekeningen bij correlatie Exercise 5: Wat kan correlatie niet meten?Exercise 6: Variabelen transformeren Exercise 7: Verbetert suiker je geluk?Exercise 8: Confounders Exercise 9: Ontwerp van experimenten Exercise 10: Type onderzoeken Exercise 11: Longitudinaal vs. dwarsdoorsnedeonderzoek Exercise 12: Gefeliciteerd!