Het gemiddelde van gemiddelden

Je wilt weten wat het gemiddelde aantal gebruikers (num_users) per deal is, maar je wilt dit cijfer voor het hele bedrijf weten zodat je kunt zien of Amir's deals meer of minder gebruikers hebben dan de gemiddelde deal van het bedrijf. Het probleem is dat het bedrijf het afgelopen jaar aan meer dan tienduizend deals heeft gewerkt, dus het is niet realistisch om alle data te verzamelen. In plaats daarvan schat je het gemiddelde door meerdere willekeurige steekproeven van deals te nemen, want dat is veel eenvoudiger dan data van iedereen in het bedrijf verzamelen.

amir_deals is beschikbaar en de gebruikersdata voor alle deals van het bedrijf staat in all_deals. Zowel pandas als pd en numpy als np zijn geladen.

Deze oefening maakt deel uit van de cursus

Inleiding tot statistiek in Python

Oefeninstructies

Zet de random seed op 321.
Neem 30 steekproeven (met teruglegging) van grootte 20 uit all_deals['num_users'] en neem van elke steekproef het gemiddelde. Sla de steekproefgemiddelden op in sample_means.
Print het gemiddelde van sample_means.
Print het gemiddelde van de kolom num_users van amir_deals.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set seed to 321
____

sample_means = []
# Loop 30 times to take 30 means
for i in range(____):
  # Take sample of size 20 from num_users col of all_deals with replacement
  cur_sample = ____
  # Take mean of cur_sample
  cur_mean = ____
  # Append cur_mean to sample_means
  sample_means.append(____)

# Print mean of sample_means
print(____)

# Print mean of num_users in amir_deals
print(____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Inleiding tot statistiek in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Samenvattende statistieken geven je de tools om enorme gegevenssets terug te brengen tot de kern. In dit hoofdstuk verken je samenvattende statistieken zoals gemiddelde, mediaan en standaarddeviatie, en leer je ze correct te interpreteren. Je scherpt ook je kritisch denkvermogen, zodat je de beste samenvattende statistieken voor jouw gegevens kunt kiezen.

Exercise 1: Wat is statistiek?Exercise 2: Beschrijvende en inferentiële statistiek Exercise 3: Classificatie van gegevenstypen Exercise 4: Maten van centrale neiging Exercise 5: Gemiddelde en mediaan berekenen Exercise 6: Gemiddelde, mediaan en de vorm van de verdeling Exercise 7: Spreidingsmaten Exercise 8: Variantie en standaarddeviatie Exercise 9: Kwartielen, kwantielen en kwintielen Exercise 10: Uitschieters vinden met de IQR

In dit hoofdstuk leer je willekeurige steekproeven genereren en toeval meten met behulp van kansrekening. Je werkt met verkoopgegevens uit de praktijk om de kans te berekenen dat een verkoper succesvol is. Tot slot gebruik je de binomiale verdeling om gebeurtenissen met binaire uitkomsten te modelleren.

Exercise 1: Hoe groot is de kans?Exercise 2: Met of zonder terugleggen?Exercise 3: Kansen berekenen Exercise 4: Steekproeven van deals Exercise 5: Discrete verdelingen Exercise 6: Een kansverdeling maken Exercise 7: Verdelingen herkennen Exercise 8: Verwachtingswaarde vs. steekproefgemiddelde Exercise 9: Continue verdelingen Exercise 10: Welke verdeling?Exercise 11: Back-ups van data Exercise 12: Wachttijden simuleren Exercise 13: De binomiale verdeling Exercise 14: Verkoopdeals simuleren Exercise 15: Binomiale kansen berekenen Exercise 16: Hoeveel sales worden er gewonnen?

Het is tijd om een van de belangrijkste kansverdelingen in de statistiek te verkennen: de normale verdeling. Je maakt histogrammen om normale verdelingen te plotten en krijgt inzicht in de centrale limietstelling, voordat je je kennis van statistische functies uitbreidt met de Poisson-, exponentiële en t-verdeling.

Exercise 1: De normale verdeling Exercise 2: Verdeling van Amirs verkopen Exercise 3: Kansen uit de normale verdeling Exercise 4: Verkoop simuleren onder nieuwe marktomstandigheden Exercise 5: Welke markt is beter?Exercise 6: De centrale limietstelling Exercise 7: Steekproefverdelingen visualiseren Exercise 8: De CLT in de praktijk Exercise 9: Het gemiddelde van gemiddelden

Huidige oefening

Exercise 10: De Poisson-verdeling Exercise 11: Lambda herkennen Exercise 12: Respons op leads bijhouden Exercise 13: Meer kansverdelingen Exercise 14: Verdelingen slepen en neerzetten Exercise 15: Tijd tussen leads modelleren Exercise 16: De t-verdeling

In dit hoofdstuk leer je hoe je de sterkte van een lineaire relatie tussen twee variabelen kwantificeert, en onderzoek je hoe storende variabelen de relatie tussen twee andere variabelen kunnen beïnvloeden. Je ziet ook hoe het ontwerp van een onderzoek de resultaten kan beïnvloeden, bepaalt hoe de gegevens geanalyseerd moeten worden en mogelijk de betrouwbaarheid van je conclusies raakt.

Exercise 1: Correlatie Exercise 2: Raad de correlatie Exercise 3: Relaties tussen variabelen Exercise 4: Kanttekeningen bij correlatie Exercise 5: Wat kan correlatie niet meten?Exercise 6: Variabelen transformeren Exercise 7: Verbetert suiker je geluk?Exercise 8: Confounders Exercise 9: Ontwerp van experimenten Exercise 10: Type onderzoeken Exercise 11: Longitudinaal vs. dwarsdoorsnedeonderzoek Exercise 12: Gefeliciteerd!