Comparando dados simulados e históricos
Uma boa simulação deve produzir resultados semelhantes aos dados históricos. Isso aconteceu com a simulação do vídeo? Neste exercício, você vai explorar uma forma de examinar os resultados da simulação e descobrir!
Primeiro, você fará uma simulação usando a distribuição normal multivariada e a média e a matriz de covariância de dia. Depois, vai conferir as médias tanto dos dados históricos quanto dos dados simulados. Elas são semelhantes?
O conjunto de dados de diabetes foi carregado como um DataFrame, dia, e as seguintes bibliotecas já foram importadas para você: pandas como pd, numpy como np e scipy.stats como st.
Este exercício faz parte do curso
Simulações de Monte Carlo em Python
Instruções do exercício
- Realize a simulação 10.000 vezes usando a distribuição normal multivariada e a média e a matriz de covariância de
dia. - Use a função
.mean()do pandas para calcular os valores médios das colunasbmietcdo conjunto de dados históricodiae dos resultados simulados debmietcemdf_resultspara avaliar se são semelhantes. - Da mesma forma, use
.cov()do pandas para calcular a matriz de covariância das colunasbmietcdediae dos resultados simulados debmietcemdf_resultspara avaliar se são semelhantes.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
cov_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].cov()
mean_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].mean()
# Complete the code to perform the simulation
simulation_results = st.multivariate_normal.rvs(____)
df_results = pd.DataFrame(simulation_results,columns=["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"])
# Calculate bmi and tc means for the historical and simulated results
print(dia[["bmi","tc"]].____)
print(____)
# Calculate bmi and tc covariances for the historical and simulated results
print(____)
print(____)