Techniques contre la multicolinéarité - ingénierie des variables

La multicolinéarité est un problème fréquent qui peut nuire aux performances dans tout contexte de Machine Learning. Savoir en parler clairement peut faire passer votre explication de « bonne » à « excellente » et vraiment vous démarquer en entretien.

Dans cet exercice, vous allez d’abord créer un modèle de référence avec une régression linéaire sur le jeu de données diabetes et explorer quelques métriques de sortie. Puis vous pratiquerez des techniques pour visualiser la corrélation entre variables explicatives, avant de réaliser de l’ingénierie de variables sur 2 variables fortement corrélées.

Pour les deux premières étapes, utilisez X_train, X_test, y_train et y_test, déjà importés dans votre espace de travail.

En complément, tous les packages nécessaires ont été importés pour vous : pandas sous pd, train_test_split de sklearn.model_selection, LinearRegression de sklearn.linear_model, mean_squared_error et r2_score de sklearn.metrics, matplotlib.pyplot sous plt et seaborn sous sns.

Cet exercice fait partie du cours

S’entraîner aux questions d’entretien en Machine Learning avec Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Instantiate, fit, predict
lin_mod = ____()
lin_mod.____(____, ____)
y_pred = lin_mod.____(____)

# Coefficient estimates
print('Coefficients: \n', lin_mod.____)

# Mean squared error
print("Mean squared error: %.2f"
      % ____(____, ____))

# Explained variance score
print('R_squared score: %.2f' % ____(____, ____))

Modifier et exécuter le code