Estimadores não padronizados
No último exercício, você executou um bootstrap simples que agora vamos modificar para estimadores mais complexos.
Suponha que você esteja estudando a saúde de estudantes. Você recebeu a altura e o peso de 1000 estudantes e está interessado na mediana das alturas, bem como na correlação entre altura e peso e o IC de 95% associado a essas quantidades. Vamos usar bootstrapping.
Examine o DataFrame do pandas df com as alturas e os pesos de 1000 estudantes. Usando isso, calcule o IC de 95% tanto para a mediana das alturas quanto para a correlação entre altura e peso.
Este exercício faz parte do curso
Simulação Estatística em Python
Instruções do exercício
- Use o método
.sample()emdfpara gerar uma amostra dos dados com reposição e atribua atmp_df. - Para cada conjunto de dados gerado em
tmp_df, calcule a mediana das alturas e a correlação entre alturas e pesos usando.median()e.corr(). - Acrescente as medianas das alturas a
height_medianse a correlação ahw_corr. - Por fim, calcule os intervalos de confiança de 95% (
[2.5, 97.5]) para cada uma das quantidades acima usandonp.percentile().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
tmp_df = ____(n=____, replace=____)
height_medians.append(____)
hw_corr.append(____)
# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))