Standardizzazione
La normalizzazione è utile per ridimensionare una colonna tra due valori, ma è difficile confrontare due colonne scalate se anche solo una è fortemente influenzata dai valori anomali (outlier). Una soluzione molto usata è la standardizzazione: invece di imporre un limite superiore e inferiore rigidi, centri i dati attorno alla loro media e calcoli per ciascun punto il numero di deviazioni standard dalla media.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Importa
StandardScalerdal modulopreprocessingdisklearn. - Istanzia
StandardScaler()comeSS_scaler. - Esegui il fit di
StandardScalersulla colonnaAgediso_numeric_df. - Trasforma la stessa colonna con lo scaler appena addestrato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())