ComeçarComece de graça

Estimadores não padronizados

No último exercício, você executou um bootstrap simples que agora vamos modificar para estimadores mais complexos.

Suponha que você esteja estudando a saúde de estudantes. Você recebeu a altura e o peso de 1000 estudantes e está interessado na mediana das alturas, bem como na correlação entre altura e peso e o IC de 95% associado a essas quantidades. Vamos usar bootstrapping.

Examine o DataFrame do pandas df com as alturas e os pesos de 1000 estudantes. Usando isso, calcule o IC de 95% tanto para a mediana das alturas quanto para a correlação entre altura e peso.

Este exercício faz parte do curso

Simulação Estatística em Python

Ver curso

Instruções do exercício

  • Use o método .sample() em df para gerar uma amostra dos dados com reposição e atribua a tmp_df.
  • Para cada conjunto de dados gerado em tmp_df, calcule a mediana das alturas e a correlação entre alturas e pesos usando .median() e .corr().
  • Acrescente as medianas das alturas a height_medians e a correlação a hw_corr.
  • Por fim, calcule os intervalos de confiança de 95% ([2.5, 97.5]) para cada uma das quantidades acima usando np.percentile().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Sample with replacement and calculate quantities of interest
sims, data_size, height_medians, hw_corr = 1000, df.shape[0], [], []
for i in range(sims):
    tmp_df = ____(n=____, replace=____)
    height_medians.append(____)
    hw_corr.append(____)

# Calculate confidence intervals
height_median_ci = np.____
height_weight_corr_ci = np.____
print("Height Median CI = {} \nHeight Weight Correlation CI = {}".format( height_median_ci, height_weight_corr_ci))
Editar e executar o código