Features met lage variantie
In de vorige oefening heb je vastgesteld dat 0,001 een goede drempel is om features met een lage variantie uit head_df te filteren na normalisatie. Gebruik nu de VarianceThreshold feature selector om deze features te verwijderen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in Python
Oefeninstructies
- Maak de variance-thresholdselector met een drempel van 0,001.
- Normaliseer de DataFrame
head_dfdoor te delen door de gemiddelde waarden en fit de selector. - Maak een booleaanse maskering van de selector met
.get_support(). - Maak een verkleinde DataFrame door de maskering door te geven aan de methode
.loc[].
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.feature_selection import VarianceThreshold
# Create a VarianceThreshold feature selector
sel = ____(threshold=____)
# Fit the selector to normalized head_df
sel.fit(____ / ____)
# Create a boolean mask
mask = sel.____
# Apply the mask to create a reduced DataFrame
reduced_df = head_df.loc[____, ____]
print(f"Dimensionality reduced from {head_df.shape[1]} to {reduced_df.shape[1]}.")