La moyenne des moyennes
Vous voulez connaître le nombre moyen d’utilisateurs (champ num_users) par transaction, mais vous voulez aussi connaître ce nombre pour l’ensemble de l’entreprise afin de voir si les transactions d’Amir ont plus ou moins d’utilisateurs que les transactions moyennes de l’entreprise. Le problème est qu’au cours de l’année écoulée, l’entreprise a travaillé sur plus de dix mille transactions, de sorte qu’il n'est pas réaliste de compiler toutes les données. Au lieu de cela, vous allez estimer la moyenne en prenant plusieurs échantillons aléatoires de transactions, car cela est beaucoup plus facile que de collecter des données auprès de tous les employés de l’entreprise.
amir_deals est disponible et les données des utilisateurs pour toutes les transactions de l’entreprise sont disponibles dans all_deals. pandas est chargé en tant que pd et numpy en tant que np.
Cet exercice fait partie du cours
Introduction aux statistiques en Python
Instructions
- Fixez la graine aléatoire à
321. - Prélevez 30 échantillons (avec remise) de taille 20 sur
all_deals['num_users']et calculez la moyenne de chaque échantillon. Enregistrez les moyennes des échantillons danssample_means. - Imprimez la moyenne de
sample_means. - Imprimez la moyenne de la colonne
num_usersdeamir_deals.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Set seed to 321
____
sample_means = []
# Loop 30 times to take 30 means
for i in range(____):
# Take sample of size 20 from num_users col of all_deals with replacement
cur_sample = ____
# Take mean of cur_sample
cur_mean = ____
# Append cur_mean to sample_means
sample_means.append(____)
# Print mean of sample_means
print(____)
# Print mean of num_users in amir_deals
print(____)