Variables à faible variance

Dans l’exercice précédent, vous avez déterminé que 0,001 est un bon seuil pour filtrer les variables à faible variance dans head_df après normalisation. Utilisez maintenant le sélecteur de variables VarianceThreshold pour supprimer ces variables.

Cet exercice fait partie du cours

Réduction de dimension en Python

Afficher le cours

Instructions

Créez le sélecteur avec un seuil de 0,001.
Normalisez le DataFrame head_df en le divisant par ses valeurs moyennes, puis ajustez le sélecteur.
Créez un masque booléen à partir du sélecteur avec .get_support().
Créez un DataFrame réduit en passant le masque à la méthode .loc[].

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from sklearn.feature_selection import VarianceThreshold

# Create a VarianceThreshold feature selector
sel = ____(threshold=____)

# Fit the selector to normalized head_df
sel.fit(____ / ____)

# Create a boolean mask
mask = sel.____

# Apply the mask to create a reduced DataFrame
reduced_df = head_df.loc[____, ____]

print(f"Dimensionality reduced from {head_df.shape[1]} to {reduced_df.shape[1]}.")

Modifier et exécuter le code