Bootstrap de l’âge maternel moyen
L’âge maternel, c’est-à-dire l’âge d’une mère au moment de l’accouchement, est un indicateur important de la santé périnatale d’une population. Un âge maternel trop élevé ou trop faible peut avoir des effets négatifs sur l’issue de la naissance.
Vous travaillez pour le Department of Health des États‑Unis en tant que Data Analyst. On vous fournit une liste, ls_df, de 51 data frames, un pour chacun des États américains et pour Washington DC. Chaque data frame contient la colonne maternal_age. Votre responsable souhaite que vous effectuiez un bootstrap de la distribution de la moyenne de l’âge maternel pour chaque État. Vous avez déjà écrit une boucle pour effectuer le bootstrap sur un seul data frame. Vous devez paralléliser ce calcul. Le package parallel a été chargé pour vous.
Cet exercice fait partie du cours
Programmation parallèle en R
Instructions
- Encapsulez la boucle de bootstrap dans une fonction qui renvoie la distribution de la moyenne.
- Configurez un cluster de quatre cœurs.
- Appliquez la fonction de bootstrap à
ls_dfen parallèle avecparLapply(). - Arrêtez le cluster une fois tous les calculs terminés.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Wrap the loop into a function
boot_mean <- ___ (df) ___
est <- rep(0, 1e3)
for (i in 1:1e3) {
b <- sample(df$mother_age, replace = T)
est[i] <- mean(b)
}
return(est)
___
# Make a cluster of four
cl <- ___
# Apply function to ls_df in parallel
state_dist <- ___
# Stop cluster
___(cl)