Transformaties voor trainen en testen (II)
Net als dat je dezelfde scaler toepast op zowel je train- als testset, wil je, als je uitschieters uit de trainset hebt verwijderd, dit waarschijnlijk ook doen voor de testset. Zorg er opnieuw voor dat je de drempelwaarden die alleen op de trainset zijn berekend gebruikt om uitschieters uit de testset te verwijderen.
Net als in de vorige oefening splitsen we de so_numeric_df DataFrame in een trainset (so_train_numeric) en een testset (so_test_numeric).
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Oefeninstructies
- Bereken de standaardafwijking en het gemiddelde van de kolom
ConvertedSalary. - Bereken de onder- en bovengrens als drie standaardafwijkingen van het gemiddelde in beide richtingen.
- Trim de DataFrame
so_test_numericzodat alle rijen behouden blijven waarvanConvertedSalarybinnen de onder- en bovengrens valt.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]