Estimateurs non standards
Dans le dernier exercice, vous avez exécuté un simple bootstrap que nous allons maintenant adapter à des estimateurs plus complexes.
Supposons que vous étudiiez la santé d’étudiants. On vous donne la taille et le poids de 1000 étudiants, et vous vous intéressez à la médiane des tailles ainsi qu’à la corrélation entre la taille et le poids, et aux IC à 95 % associés à ces quantités. Utilisons le bootstrap.
Examinez le DataFrame pandas df contenant les tailles et les poids de 1000 étudiants. À partir de celui-ci, calculez l’IC à 95 % à la fois pour la taille médiane et pour la corrélation entre la taille et le poids.
Cet exercice fait partie du cours
Simulation statistique en Python
Instructions
- Utilisez la méthode
.sample()surdfpour générer un échantillon des données avec remise et l’assigner àtmp_df. - Pour chaque jeu de données généré dans
tmp_df, calculez la médiane des tailles et la corrélation entre tailles et poids à l’aide de.median()et.corr(). - Ajoutez les médianes des tailles à
height_medianset la corrélation àhw_corr. - Calculez enfin les intervalles de confiance à 95 % (
[2.5, 97.5]) pour chacune des quantités ci-dessus avecnp.percentile().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
tmp_df = ____(n=____, replace=____)
height_medians.append(____)
hw_corr.append(____)
# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))