Comparación de datos simulados e históricos
Una buena simulación debe tener resultados similares a los datos históricos. ¿Fue así en la simulación del vídeo? En este ejercicio, explorarás una forma de examinar los resultados de la simulación y ¡descúbrelo!
En primer lugar, realizarás una simulación utilizando la distribución normal multivariante y la media y la matriz de covarianza de dia
. A continuación, comprobarás las medias de los datos históricos y simulados. ¿Son similares?
El conjunto de datos de la diabetes se ha cargado como un DataFrame, dia
, y se han importado para ti las siguientes bibliotecas: pandas
como pd
, numpy
como np
, y scipy.stats
como st
.
Este ejercicio forma parte del curso
Simulaciones Montecarlo en Python
Instrucciones de ejercicio
- Realiza la simulación 10.000 veces utilizando la distribución normal multivariante y la media y la matriz de covarianza de
dia
. - Utiliza la función
.mean()
de pandas para calcular los valores medios de las columnasbmi
ytc
del conjunto de datos históricosdia
y los resultados simuladosbmi
ytc
dedf_results
para evaluar si son similares. - Del mismo modo, utiliza
.cov()
de pandas para calcular la matriz de covarianza de las columnasbmi
ytc
dedia
y los resultados simuladosbmi
ytc
dedf_results
para evaluar si son similares.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
cov_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].cov()
mean_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].mean()
# Complete the code to perform the simulation
simulation_results = st.multivariate_normal.rvs(____)
df_results = pd.DataFrame(simulation_results,columns=["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"])
# Calculate bmi and tc means for the historical and simulated results
print(dia[["bmi","tc"]].____)
print(____)
# Calculate bmi and tc covariances for the historical and simulated results
print(____)
print(____)