Stimatori non standard
Nell'ultimo esercizio hai eseguito un semplice bootstrap che ora modificheremo per stimatori più complessi.
Supponi di studiare la salute degli studenti. Hai a disposizione l'altezza e il peso di 1000 studenti e ti interessano la mediana delle altezze e la correlazione tra altezza e peso, insieme al relativo IC al 95% per queste quantità. Usiamo il bootstrapping.
Esamina il DataFrame pandas df con le altezze e i pesi di 1000 studenti. Usandolo, calcola l'IC al 95% sia per la mediana dell'altezza sia per la correlazione tra altezza e peso.
Questo esercizio fa parte del corso
Simulazione statistica in Python
Istruzioni dell'esercizio
- Usa il metodo
.sample()sudfper generare un campione dei dati con reinserimento e assegnalo atmp_df. - Per ogni insieme di dati generato in
tmp_df, calcola la mediana delle altezze e la correlazione tra altezze e pesi usando.median()e.corr(). - Aggiungi le mediane delle altezze a
height_medianse la correlazione ahw_corr. - Infine, calcola gli intervalli di confidenza al 95% (
[2.5, 97.5]) per ciascuna delle quantità sopra usandonp.percentile().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
tmp_df = ____(n=____, replace=____)
height_medians.append(____)
hw_corr.append(____)
# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))