Comparer les données simulées et historiques
Une bonne simulation devrait produire des résultats proches des données historiques. Est-ce le cas pour la simulation de la vidéo ? Dans cet exercice, vous allez explorer une manière d’examiner les résultats de la simulation pour le vérifier.
Vous commencerez par exécuter une simulation en utilisant la loi normale multivariée ainsi que la moyenne et la matrice de covariance de dia. Ensuite, vous comparerez les moyennes des données historiques et des données simulées. Sont‑elles similaires ?
Le jeu de données sur le diabète a été chargé dans un DataFrame dia, et les bibliothèques suivantes ont été importées pour vous : pandas sous pd, numpy sous np, et scipy.stats sous st.
Cet exercice fait partie du cours
Simulations de Monte Carlo en Python
Instructions
- Effectuez la simulation 10 000 fois en utilisant la loi normale multivariée ainsi que la moyenne et la matrice de covariance de
dia. - Utilisez la fonction
.mean()de pandas pour calculer les moyennes des colonnesbmiettcdu jeu de données historiquedia, ainsi que des résultats simulésbmiettcdedf_results, afin d’évaluer leur similitude. - De même, utilisez
.cov()de pandas pour calculer la matrice de covariance des colonnesbmiettcdedia, ainsi que des résultats simulésbmiettcdedf_results, afin d’évaluer leur similitude.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
cov_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].cov()
mean_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].mean()
# Complete the code to perform the simulation
simulation_results = st.multivariate_normal.rvs(____)
df_results = pd.DataFrame(simulation_results,columns=["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"])
# Calculate bmi and tc means for the historical and simulated results
print(dia[["bmi","tc"]].____)
print(____)
# Calculate bmi and tc covariances for the historical and simulated results
print(____)
print(____)