Kenmerken voor standaardisatie identificeren

In deze oefening onderzoek je de variantie van kolommen in de UFO-gegevensset om te bepalen welke features je moet standaardiseren. Nadat je hebt gekeken naar de varianties van de kolommen seconds en minutes, zie je dat de variantie van de kolom seconds extreem hoog is. Omdat seconds en minutes aan elkaar gerelateerd zijn (een punt waar we op terugkomen bij het selecteren van features voor het model), gaan we de kolom seconds log-normaliseren.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

Bereken de variantie in de kolommen seconds en minutes en bekijk de resultaten goed.
Voer log-normalisatie uit op de kolom seconds en zet deze om naar een nieuwe kolom seconds_log.
Print de variantie van de kolom seconds_log.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)

Code bewerken en uitvoeren