CommencerCommencer gratuitement

Comparer les données simulées et historiques

Une bonne simulation devrait produire des résultats proches des données historiques. Est-ce le cas pour la simulation de la vidéo ? Dans cet exercice, vous allez explorer une manière d’examiner les résultats de la simulation pour le vérifier.

Vous commencerez par exécuter une simulation en utilisant la loi normale multivariée ainsi que la moyenne et la matrice de covariance de dia. Ensuite, vous comparerez les moyennes des données historiques et des données simulées. Sont‑elles similaires ?

Le jeu de données sur le diabète a été chargé dans un DataFrame dia, et les bibliothèques suivantes ont été importées pour vous : pandas sous pd, numpy sous np, et scipy.stats sous st.

Cet exercice fait partie du cours

Simulations de Monte Carlo en Python

Afficher le cours

Instructions

  • Effectuez la simulation 10 000 fois en utilisant la loi normale multivariée ainsi que la moyenne et la matrice de covariance de dia.
  • Utilisez la fonction .mean() de pandas pour calculer les moyennes des colonnes bmi et tc du jeu de données historique dia, ainsi que des résultats simulés bmi et tc de df_results, afin d’évaluer leur similitude.
  • De même, utilisez .cov() de pandas pour calculer la matrice de covariance des colonnes bmi et tc de dia, ainsi que des résultats simulés bmi et tc de df_results, afin d’évaluer leur similitude.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

cov_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].cov()
mean_dia = dia[["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"]].mean()

# Complete the code to perform the simulation
simulation_results = st.multivariate_normal.rvs(____)

df_results = pd.DataFrame(simulation_results,columns=["age", "bmi", "bp", "tc", "ldl", "hdl", "tch", "ltg", "glu"])

# Calculate bmi and tc means for the historical and simulated results
print(dia[["bmi","tc"]].____)
print(____)
      
# Calculate bmi and tc covariances for the historical and simulated results
print(____)
print(____)
Modifier et exécuter le code