Bootstrapping des durchschnittlichen mütterlichen Alters
Das mütterliche Alter, also das Alter einer Mutter zum Zeitpunkt der Geburt, ist ein wichtiger Indikator für die Gesundheit bei Geburten in einer Bevölkerung. Ein zu hohes oder zu niedriges mütterliches Alter kann negative Auswirkungen auf den Geburtserfolg haben.
Du arbeitest als Data Analyst beim US-Gesundheitsministerium. Du bekommst eine Liste ls_df mit 51 Data Frames, jeweils einer für jeden US-Bundesstaat und Washington, D.C. Jeder Data Frame enthält die Spalte maternal_age. Deine Chefin möchte, dass du für jeden Staat eine Bootstrap-Verteilung des durchschnittlichen mütterlichen Alters erstellst. Du hast bereits eine Schleife geschrieben, die das Bootstrap auf einem einzelnen Data Frame ausführt. Diese Berechnung sollst du jetzt parallelisieren. Das Paket parallel wurde für dich geladen.
Diese Übung ist Teil des Kurses
<Kurs>Paralleles Programmieren in R</Kurs>Übungsanweisungen
- Packe die Bootstrap-Schleife in eine Funktion, die die Verteilung des Mittelwerts zurückgibt.
- Richte einen Cluster mit vier Kernen ein.
- Wende die Bootstrap-Funktion parallel mit
parLapply()aufls_dfan. - Stoppe den Cluster, sobald alle Berechnungen abgeschlossen sind.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Wrap the loop into a function
boot_mean <- ___ (df) ___
est <- rep(0, 1e3)
for (i in 1:1e3) {
b <- sample(df$mother_age, replace = T)
est[i] <- mean(b)
}
return(est)
___
# Make a cluster of four
cl <- ___
# Apply function to ls_df in parallel
state_dist <- ___
# Stop cluster
___(cl)