Het gemiddelde van gemiddelden
Je wilt weten wat het gemiddelde aantal gebruikers (num_users) per deal is, maar je wilt dit cijfer voor het hele bedrijf weten zodat je kunt zien of Amir's deals meer of minder gebruikers hebben dan de gemiddelde deal van het bedrijf. Het probleem is dat het bedrijf het afgelopen jaar aan meer dan tienduizend deals heeft gewerkt, dus het is niet realistisch om alle data te verzamelen. In plaats daarvan schat je het gemiddelde door meerdere willekeurige steekproeven van deals te nemen, want dat is veel eenvoudiger dan data van iedereen in het bedrijf verzamelen.
amir_deals is beschikbaar en de gebruikersdata voor alle deals van het bedrijf staat in all_deals. Zowel pandas als pd en numpy als np zijn geladen.
Deze oefening maakt deel uit van de cursus
Inleiding tot statistiek in Python
Oefeninstructies
- Zet de random seed op
321. - Neem 30 steekproeven (met teruglegging) van grootte 20 uit
all_deals['num_users']en neem van elke steekproef het gemiddelde. Sla de steekproefgemiddelden op insample_means. - Print het gemiddelde van
sample_means. - Print het gemiddelde van de kolom
num_usersvanamir_deals.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set seed to 321
____
sample_means = []
# Loop 30 times to take 30 means
for i in range(____):
# Take sample of size 20 from num_users col of all_deals with replacement
cur_sample = ____
# Take mean of cur_sample
cur_mean = ____
# Append cur_mean to sample_means
sample_means.append(____)
# Print mean of sample_means
print(____)
# Print mean of num_users in amir_deals
print(____)