Niet-standaard schatters

In de vorige oefening heb je een eenvoudige bootstrap uitgevoerd, die we nu aanpassen voor meer complexe schatters.

Stel, je onderzoekt de gezondheid van studenten. Je hebt de lengte en het gewicht van 1000 studenten en je bent geïnteresseerd in de mediaan van de lengte én de correlatie tussen lengte en gewicht, plus het bijbehorende 95%-BI voor deze grootheden. Laten we bootstrapping gebruiken.

Bekijk de pandas DataFrame df met de lengtes en gewichten van 1000 studenten. Gebruik dit om het 95%-BI te berekenen voor zowel de mediaan van de lengte als de correlatie tussen lengte en gewicht.

Deze oefening maakt deel uit van de cursus

Statisticale simulatie in Python

Bekijk cursus

Oefeninstructies

Gebruik de methode .sample() op df om een steekproef met terugleggen te genereren en wijs die toe aan tmp_df.
Bereken voor elke gegenereerde gegevensset in tmp_df de mediaan van de lengtes en de correlatie tussen lengte en gewicht met .median() en .corr().
Voeg de medianen van de lengte toe aan height_medians en de correlatie aan hw_corr.
Bereken tot slot de 95% ([2.5, 97.5]) betrouwbaarheidsintervallen voor elk van bovenstaande grootheden met np.percentile().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
    tmp_df = ____(n=____, replace=____)
    height_medians.append(____)
    hw_corr.append(____)

# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))

Code bewerken en uitvoeren