Aan de slagGa gratis aan de slag

Transformaties voor trainen en testen (II)

Net als dat je dezelfde scaler toepast op zowel je train- als testset, wil je, als je uitschieters uit de trainset hebt verwijderd, dit waarschijnlijk ook doen voor de testset. Zorg er opnieuw voor dat je de drempelwaarden die alleen op de trainset zijn berekend gebruikt om uitschieters uit de testset te verwijderen.

Net als in de vorige oefening splitsen we de so_numeric_df DataFrame in een trainset (so_train_numeric) en een testset (so_test_numeric).

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Bereken de standaardafwijking en het gemiddelde van de kolom ConvertedSalary.
  • Bereken de onder- en bovengrens als drie standaardafwijkingen van het gemiddelde in beide richtingen.
  • Trim de DataFrame so_test_numeric zodat alle rijen behouden blijven waarvan ConvertedSalary binnen de onder- en bovengrens valt.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Code bewerken en uitvoeren