Le lien entre matrices de corrélation et de covariance

Plus tôt dans le cours, vous avez utilisé .cov() pour obtenir la matrice de covariance et .corr() pour obtenir la matrice de corrélation. Il est facile de les confondre et de mal les utiliser dans des simulations. Clarifions cela !

Une matrice de corrélation est une matrice de covariance standardisée, où les coefficients de corrélation dans la matrice prennent des valeurs de 0 à 1.

\(cov(x,y) = corr(x,y) \times std(x) \times std(y)\)

L’équation ci-dessus nous indique que \(cov(x,y)\), la covariance, peut être calculée en multipliant le coefficient de corrélation \(corr(x,y)\) par l’écart type de \(x\), \(std(x)\), et par l’écart type de \(y\), \(std(y)\). Vous allez tester cette relation dans cet exercice !

Le jeu de données diabetes a été chargé dans un DataFrame, dia, et pandas sous pd ainsi que numpy sous np ont été importés pour vous.

Cet exercice fait partie du cours

Simulations de Monte Carlo en Python

Afficher le cours

Instructions

Calculez la matrice de covariance de dia[["bmi", "tc"]] et enregistrez-la dans cov_dia2.
Calculez la matrice de corrélation de dia[["bmi", "tc"]] et enregistrez-la dans corr_dia2.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate the covariance matrix of bmi and tc
cov_dia2 = ____

# Calculate the correlation matrix of bmi and tc
corr_dia2 = ____
std_dia2 = dia[["bmi","tc"]].std()

print(f'Covariance of bmi and tc from covariance matrix :{cov_dia2.iloc[0,1]}')
print(f'Covariance of bmi and tc from correlation matrix :{corr_dia2.iloc[0,1] * std_dia2[0] * std_dia2[1]}')

Modifier et exécuter le code