Kenmerken voor standaardisatie identificeren
In deze oefening onderzoek je de variantie van kolommen in de UFO-gegevensset om te bepalen welke features je moet standaardiseren. Nadat je hebt gekeken naar de varianties van de kolommen seconds en minutes, zie je dat de variantie van de kolom seconds extreem hoog is. Omdat seconds en minutes aan elkaar gerelateerd zijn (een punt waar we op terugkomen bij het selecteren van features voor het model), gaan we de kolom seconds log-normaliseren.
Deze oefening maakt deel uit van de cursus
Preprocessing voor Machine Learning in Python
Oefeninstructies
- Bereken de variantie in de kolommen
secondsenminutesen bekijk de resultaten goed. - Voer log-normalisatie uit op de kolom
secondsen zet deze om naar een nieuwe kolomseconds_log. - Print de variantie van de kolom
seconds_log.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)