Aan de slagGa gratis aan de slag

Het gemiddelde van gemiddelden

Je wilt weten wat het gemiddelde aantal gebruikers (num_users) per deal is, maar je wilt dit cijfer voor het hele bedrijf weten zodat je kunt zien of Amir's deals meer of minder gebruikers hebben dan de gemiddelde deal van het bedrijf. Het probleem is dat het bedrijf het afgelopen jaar aan meer dan tienduizend deals heeft gewerkt, dus het is niet realistisch om alle data te verzamelen. In plaats daarvan schat je het gemiddelde door meerdere willekeurige steekproeven van deals te nemen, want dat is veel eenvoudiger dan data van iedereen in het bedrijf verzamelen.

amir_deals is beschikbaar en de gebruikersdata voor alle deals van het bedrijf staat in all_deals. Zowel pandas als pd en numpy als np zijn geladen.

Deze oefening maakt deel uit van de cursus

Inleiding tot statistiek in Python

Cursus bekijken

Oefeninstructies

  • Zet de random seed op 321.
  • Neem 30 steekproeven (met teruglegging) van grootte 20 uit all_deals['num_users'] en neem van elke steekproef het gemiddelde. Sla de steekproefgemiddelden op in sample_means.
  • Print het gemiddelde van sample_means.
  • Print het gemiddelde van de kolom num_users van amir_deals.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set seed to 321
____

sample_means = []
# Loop 30 times to take 30 means
for i in range(____):
  # Take sample of size 20 from num_users col of all_deals with replacement
  cur_sample = ____
  # Take mean of cur_sample
  cur_mean = ____
  # Append cur_mean to sample_means
  sample_means.append(____)

# Print mean of sample_means
print(____)

# Print mean of num_users in amir_deals
print(____)
Code bewerken en uitvoeren