IniziaInizia gratis

Standardizzazione

La normalizzazione è utile per ridimensionare una colonna tra due valori, ma è difficile confrontare due colonne scalate se anche solo una è fortemente influenzata dai valori anomali (outlier). Una soluzione molto usata è la standardizzazione: invece di imporre un limite superiore e inferiore rigidi, centri i dati attorno alla loro media e calcoli per ciascun punto il numero di deviazioni standard dalla media.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa StandardScaler dal modulo preprocessing di sklearn.
  • Istanzia StandardScaler() come SS_scaler.
  • Esegui il fit di StandardScaler sulla colonna Age di so_numeric_df.
  • Trasforma la stessa colonna con lo scaler appena addestrato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Modifica ed esegui il codice