Niet-standaard schatters
In de vorige oefening heb je een eenvoudige bootstrap uitgevoerd, die we nu aanpassen voor meer complexe schatters.
Stel, je onderzoekt de gezondheid van studenten. Je hebt de lengte en het gewicht van 1000 studenten en je bent geïnteresseerd in de mediaan van de lengte én de correlatie tussen lengte en gewicht, plus het bijbehorende 95%-BI voor deze grootheden. Laten we bootstrapping gebruiken.
Bekijk de pandas DataFrame df met de lengtes en gewichten van 1000 studenten. Gebruik dit om het 95%-BI te berekenen voor zowel de mediaan van de lengte als de correlatie tussen lengte en gewicht.
Deze oefening maakt deel uit van de cursus
Statisticale simulatie in Python
Oefeninstructies
- Gebruik de methode
.sample()opdfom een steekproef met terugleggen te genereren en wijs die toe aantmp_df. - Bereken voor elke gegenereerde gegevensset in
tmp_dfde mediaan van de lengtes en de correlatie tussen lengte en gewicht met.median()en.corr(). - Voeg de medianen van de lengte toe aan
height_mediansen de correlatie aanhw_corr. - Bereken tot slot de 95% (
[2.5, 97.5]) betrouwbaarheidsintervallen voor elk van bovenstaande grootheden metnp.percentile().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
tmp_df = ____(n=____, replace=____)
height_medians.append(____)
hw_corr.append(____)
# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))