CommencerCommencer gratuitement

Estimateurs non standards

Dans le dernier exercice, vous avez exécuté un simple bootstrap que nous allons maintenant adapter à des estimateurs plus complexes.

Supposons que vous étudiiez la santé d’étudiants. On vous donne la taille et le poids de 1000 étudiants, et vous vous intéressez à la médiane des tailles ainsi qu’à la corrélation entre la taille et le poids, et aux IC à 95 % associés à ces quantités. Utilisons le bootstrap.

Examinez le DataFrame pandas df contenant les tailles et les poids de 1000 étudiants. À partir de celui-ci, calculez l’IC à 95 % à la fois pour la taille médiane et pour la corrélation entre la taille et le poids.

Cet exercice fait partie du cours

Simulation statistique en Python

Afficher le cours

Instructions

  • Utilisez la méthode .sample() sur df pour générer un échantillon des données avec remise et l’assigner à tmp_df.
  • Pour chaque jeu de données généré dans tmp_df, calculez la médiane des tailles et la corrélation entre tailles et poids à l’aide de .median() et .corr().
  • Ajoutez les médianes des tailles à height_medians et la corrélation à hw_corr.
  • Calculez enfin les intervalles de confiance à 95 % ([2.5, 97.5]) pour chacune des quantités ci-dessus avec np.percentile().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
    tmp_df = ____(n=____, replace=____)
    height_medians.append(____)
    hw_corr.append(____)

# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))
Modifier et exécuter le code