Steekproefgrootte voor proporties
Echte datasets kunnen rommelig zijn. Als Analytics Engineer die met echte data werkt, kom je situaties tegen waarin de variantie in de data te hoog is om een betekenisvol verschil in de statistieken te kunnen vastleggen. Dit probleem komt vaker voor bij continue metrics, zoals de gemiddelde bestelwaarde in de vorige oefening. Er zijn meerdere manieren om dit aan te pakken, maar een van de workarounds is een metric te vinden met een lagere variantie die nog steeds past bij de bedrijfsdoelen.
Hier ga je de steekproefgrootte berekenen voor een binaire metric: het aanmeldingspercentage (signup rate), dat aangeeft of een gebruiker zich wel of niet heeft aangemeld voor de dienst, in tegenstelling tot de betaalde prijs die meer tussen gebruikers kan variëren. De homepage DataFrame en de bibliotheken pandas, numpy zijn al voor je geladen, evenals proportion_effectsize uit statsmodels.stats.proportion en power uit statsmodels.stats.
Deze oefening maakt deel uit van de cursus
A/B-testen in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the baseline signup rate for group A
p_A = ____
print('Group A mean signup rate:', ____)