Le lien entre matrices de corrélation et de covariance
Plus tôt dans le cours, vous avez utilisé .cov() pour obtenir la matrice de covariance et .corr() pour obtenir la matrice de corrélation. Il est facile de les confondre et de mal les utiliser dans des simulations. Clarifions cela !
Une matrice de corrélation est une matrice de covariance standardisée, où les coefficients de corrélation dans la matrice prennent des valeurs de 0 à 1.
\(cov(x,y) = corr(x,y) \times std(x) \times std(y)\)
L’équation ci-dessus nous indique que \(cov(x,y)\), la covariance, peut être calculée en multipliant le coefficient de corrélation \(corr(x,y)\) par l’écart type de \(x\), \(std(x)\), et par l’écart type de \(y\), \(std(y)\). Vous allez tester cette relation dans cet exercice !
Le jeu de données diabetes a été chargé dans un DataFrame, dia, et pandas sous pd ainsi que numpy sous np ont été importés pour vous.
Cet exercice fait partie du cours
Simulations de Monte Carlo en Python
Instructions
- Calculez la matrice de covariance de
dia[["bmi", "tc"]]et enregistrez-la danscov_dia2. - Calculez la matrice de corrélation de
dia[["bmi", "tc"]]et enregistrez-la danscorr_dia2.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate the covariance matrix of bmi and tc
cov_dia2 = ____
# Calculate the correlation matrix of bmi and tc
corr_dia2 = ____
std_dia2 = dia[["bmi","tc"]].std()
print(f'Covariance of bmi and tc from covariance matrix :{cov_dia2.iloc[0,1]}')
print(f'Covariance of bmi and tc from correlation matrix :{corr_dia2.iloc[0,1] * std_dia2[0] * std_dia2[1]}')