Aan de slagGa gratis aan de slag

Bootstrapping van de gemiddelde maternale leeftijd

Maternale leeftijd, of de leeftijd van een moeder op het moment van bevallen, is een belangrijke indicator voor de gezondheid rond de geboorte in een bevolking. Een te hoge of te lage maternale leeftijd kan negatieve gevolgen hebben voor de uitkomst van de bevalling.

Je werkt als Data Analyst voor het Amerikaanse Department of Health. Je krijgt een lijst, ls_df, met 51 dataframes, één voor elke Amerikaanse staat en Washington DC. Elk dataframe bevat de kolom maternal_age. Je leidinggevende wil dat je een bootstrapdistributie van de gemiddelde maternale leeftijd voor elke staat maakt. Je hebt al een lus geschreven om de bootstrap op één dataframe uit te voeren. Je moet deze berekening paralleliseren. Het pakket parallel is alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Parallel programmeren in R

Cursus bekijken

Oefeninstructies

  • Verpak de bootstrap-lus in een functie die de distributie van het gemiddelde retourneert.
  • Zet een cluster op van vier cores.
  • Pas de bootstrapfunctie parallel toe op ls_df met parLapply().
  • Stop het cluster zodra alle berekeningen klaar zijn.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Wrap the loop into a function
boot_mean <- ___ (df) ___
  est <- rep(0, 1e3)
  for (i in 1:1e3) {
    b <- sample(df$mother_age, replace = T)
    est[i] <- mean(b)
  }
  return(est)
___
# Make a cluster of four
cl <- ___
# Apply function to ls_df in parallel
state_dist <- ___
# Stop cluster
___(cl)
Code bewerken en uitvoeren