Force de la corrélation

De manière intuitive, on peut regarder les graphiques fournis et « voir » si les deux variables semblent « varier ensemble ».

Jeu de données A : x et y évoluent ensemble et semblent avoir une relation forte.
Jeu de données B : tendance générale à la hausse ; x et y ne sont que faiblement liés.
Jeu de données C : ressemble à un nuage aléatoire ; x et y ne semblent pas varier ensemble et sont indépendants.

Data Set A

Data Set B

Data Set C

Rappelez-vous que les écarts diffèrent de la moyenne et que nous les avons normalisés en divisant les écarts par l’écart type. Dans cet exercice, vous allez comparer les 3 jeux de données en calculant la corrélation et en déterminant lequel présente les variables x et y les plus fortement corrélées. Utilisez la table de données fournie data_sets, un dictionnaire d’enregistrements, chacun avec les clés 'name', 'x', 'y' et 'correlation'.

Cet exercice fait partie du cours

Introduction à la modélisation linéaire en Python

Afficher le cours

Instructions

Complétez la définition de la fonction correlation() à l’aide de la moyenne des produits des écarts normalisés de x et y.
Itérez sur data_sets, calculez et stockez chaque corrélation avec correlation(record['x'], record['y']).
Exécutez le code jusqu’à ce point (c’est-à-dire jusqu’à la fin de la boucle for) et inspectez l’affichage. Quel jeu de données présente la corrélation la plus forte ?
Affectez le nom du jeu de données (data_sets['A'], data_sets['B'] ou data_sets['C']) ayant la corrélation la plus forte à la variable best_data.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Complete the function that will compute correlation.
def correlation(x,y):
    x_dev = x - np.____(x)
    y_dev = y - np.____(y)
    x_norm = x_dev / np.____(x)
    y_norm = y_dev / np.____(y)
    return np.____(x_norm * y_norm)

# Compute and store the correlation for each data set in the list.
for name, data in data_sets.items():
    data['correlation'] = ____(data['x'], data['y'])
    print('data set {} has correlation {:.2f}'.format(name, data['correlation']))

# Assign the data set with the best correlation.
best_data = data_sets['____']

Modifier et exécuter le code

Cet exercice fait partie du cours

Introduction à la modélisation linéaire en Python

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Nous commençons le cours par une exploration des relations linéaires, avec des exemples concrets illustrant l’usage des modèles linéaires et des démonstrations de méthodes de visualisation de données avec matplotlib. Nous utilisons ensuite des statistiques descriptives pour quantifier la forme de nos données et la corrélation pour mesurer l’intensité des relations linéaires entre deux variables.

Exercise 1: Introduction à la modélisation des données Exercise 2: Pourquoi modéliser : interpolation Exercise 3: Pourquoi modéliser : extrapolation Exercise 4: Pourquoi modéliser : estimer des relations Exercise 5: Visualiser des relations linéaires Exercise 6: Tracer les données Exercise 7: Tracer le modèle sur les données Exercise 8: Estimer visuellement la pente et l’ordonnée à l’origine Exercise 9: Quantifier les relations linéaires Exercise 10: Moyenne, écart et écart type Exercise 11: Covariance vs Corrélation Exercise 12: Force de la corrélation

Exercice en cours

Nous examinons ici les éléments qui composent un modèle linéaire. En nous appuyant sur l’idée de série de Taylor, nous nous concentrons sur les paramètres pente et intercept, sur la façon dont ils définissent le modèle et comment les interpréter dans plusieurs contextes appliqués. Nous utilisons différents modules Python pour trouver le modèle qui s’ajuste le mieux aux données, en calculant les valeurs optimales de la pente et de l’intercept, à l’aide des moindres carrés, de numpy, de statsmodels et de scikit-learn.

Exercise 1: Qu’est-ce qui fait qu’un modèle est linéaire Exercise 2: Termes d’un modèle Exercise 3: Composants du modèle Exercise 4: Paramètres du modèle Exercise 5: Interpréter la pente et l’ordonnée à l’origine Exercise 6: Proportionnalité linéaire Exercise 7: Pente et taux de variation Exercise 8: Ordonnée à l’origine et points de départ Exercise 9: Optimisation du modèle Exercise 10: Somme des carrés des résidus Exercise 11: Minimiser les résidus Exercise 12: Visualiser les minima du RSS Exercise 13: Optimisation aux moindres carrés Exercise 14: Moindres carrés avec `numpy`Exercise 15: Optimisation avec SciPy Exercise 16: Moindres carrés avec `statsmodels`

Nous allons ensuite appliquer des modèles à des données réelles et réaliser des prédictions. Nous explorerons certaines des limites et écueils courants des prédictions, puis nous évaluerons et comparerons des modèles en quantifiant et contrastant plusieurs mesures d’ajustement, notamment la RMSE et le R-carré.

Exercise 1: Modéliser des données réelles Exercise 2: Modèle linéaire en anthropologie Exercise 3: Modèle linéaire en océanographie Exercise 4: Modèle linéaire en cosmologie Exercise 5: Les limites de la prédiction Exercise 6: Interpolation : entre deux dates Exercise 7: Extrapolation : franchir la limite Exercise 8: Qualité de l’ajustement Exercise 9: RMSE étape par étape Exercise 10: R carré Exercise 11: Erreur standard Exercise 12: Variation autour de la tendance Exercise 13: Variation en deux parties

Dans le dernier chapitre, nous introduisons des notions de statistiques inférentielles et nous les utilisons pour montrer comment l’estimation du maximum de vraisemblance et le bootstrap peuvent servir à estimer les paramètres d’un modèle linéaire. Nous appliquerons ensuite ces méthodes pour formuler des affirmations probabilistes sur notre confiance dans les paramètres du modèle.

Exercise 1: Notions de statistique inférentielle Exercise 2: Statistiques d'échantillon versus population Exercise 3: Variation des statistiques d’échantillon Exercise 4: Visualiser la variabilité d’une statistique Exercise 5: Estimation du modèle et vraisemblance Exercise 6: Estimation des paramètres de la population Exercise 7: Maximiser la vraisemblance, partie 1 Exercise 8: Maximiser la vraisemblance, partie 2 Exercise 9: Incertitude du modèle et distributions d’échantillonnage Exercise 10: Bootstrap et erreur standard Exercise 11: Estimation de la vitesse et de la confiance Exercise 12: Visualiser le bootstrap Exercise 13: Erreurs de modèle et aléa Exercise 14: Statistiques de test et taille d’effet Exercise 15: Hypothèse nulle Exercise 16: Visualiser des statistiques de test Exercise 17: Visualiser la valeur p Exercise 18: Conclusion du cours