Identificare le feature da standardizzare
In questo esercizio esaminerai la varianza delle colonne nel dataset sugli avvistamenti di UFO per capire quali feature dovrebbero essere standardizzate. Dopo aver osservato le varianze delle colonne seconds e minutes, vedrai che la varianza di seconds è estremamente alta. Poiché seconds e minutes sono correlate tra loro (un aspetto di cui ci occuperemo quando selezioneremo le feature per il modeling), applichiamo una normalizzazione logaritmica alla colonna seconds.
Questo esercizio fa parte del corso
Preprocessing per il Machine Learning in Python
Istruzioni dell'esercizio
- Calcola la varianza delle colonne
secondseminutesed esamina attentamente i risultati. - Esegui la normalizzazione logaritmica sulla colonna
seconds, trasformandola in una nuova colonna chiamataseconds_log. - Stampa la varianza della colonna
seconds_log.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Check the variance of the seconds and minutes columns
print(____)
# Log normalize the seconds column
ufo["seconds_log"] = ____
# Print out the variance of just the seconds_log column
print(____)