IniziaInizia gratis

Identificare le feature da standardizzare

In questo esercizio esaminerai la varianza delle colonne nel dataset sugli avvistamenti di UFO per capire quali feature dovrebbero essere standardizzate. Dopo aver osservato le varianze delle colonne seconds e minutes, vedrai che la varianza di seconds è estremamente alta. Poiché seconds e minutes sono correlate tra loro (un aspetto di cui ci occuperemo quando selezioneremo le feature per il modeling), applichiamo una normalizzazione logaritmica alla colonna seconds.

Questo esercizio fa parte del corso

Preprocessing per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola la varianza delle colonne seconds e minutes ed esamina attentamente i risultati.
  • Esegui la normalizzazione logaritmica sulla colonna seconds, trasformandola in una nuova colonna chiamata seconds_log.
  • Stampa la varianza della colonna seconds_log.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Check the variance of the seconds and minutes columns
print(____)

# Log normalize the seconds column
ufo["seconds_log"] = ____

# Print out the variance of just the seconds_log column
print(____)
Modifica ed esegui il codice