Trasformazioni di train e test (II)
Analogamente all'applicare lo stesso scaler sia al training set sia al test set, se hai rimosso gli outlier dal train set, probabilmente vorrai fare lo stesso anche sul test set. Ancora una volta, assicurati di usare le soglie calcolate solo dal train set per rimuovere gli outlier dal test set.
Come nel precedente esercizio, abbiamo diviso il DataFrame so_numeric_df in train (so_train_numeric) e test (so_test_numeric).
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Istruzioni dell'esercizio
- Calcola la deviazione standard e la media della colonna
ConvertedSalary. - Calcola i limiti superiore e inferiore come tre deviazioni standard dalla media in entrambe le direzioni.
- Riduci il DataFrame
so_test_numericmantenendo tutte le righe in cuiConvertedSalaryè compreso tra limite inferiore e limite superiore.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]