Vérifier les fonctionnalités corrélées
Revenez maintenant au jeu de données wine, qui contient des variables continues et numériques. Calculez le coefficient de corrélation de Pearson sur l’ensemble pour déterminer quelles colonnes sont de bonnes candidates à l’élimination. Puis, supprimez ces colonnes du DataFrame.
Cet exercice fait partie du cours
Prétraitement pour le Machine Learning en Python
Instructions
- Affichez les coefficients de corrélation de Pearson pour chaque paire de variables du jeu de données
wine. - Supprimez de
winetoutes les colonnes dont le coefficient de corrélation est supérieur à 0,75 avec au moins deux autres colonnes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print out the column correlations of the wine dataset
print(____)
# Drop that column from the DataFrame
wine = wine.____(____, ____)
print(wine.head())