IniziaInizia gratis

Trasformazioni di train e test (II)

Analogamente all'applicare lo stesso scaler sia al training set sia al test set, se hai rimosso gli outlier dal train set, probabilmente vorrai fare lo stesso anche sul test set. Ancora una volta, assicurati di usare le soglie calcolate solo dal train set per rimuovere gli outlier dal test set.

Come nel precedente esercizio, abbiamo diviso il DataFrame so_numeric_df in train (so_train_numeric) e test (so_test_numeric).

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola la deviazione standard e la media della colonna ConvertedSalary.
  • Calcola i limiti superiore e inferiore come tre deviazioni standard dalla media in entrambe le direzioni.
  • Riduci il DataFrame so_test_numeric mantenendo tutte le righe in cui ConvertedSalary è compreso tra limite inferiore e limite superiore.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Modifica ed esegui il codice