Kolommen binariseren
Hoewel numerieke waarden vaak zonder feature engineering gebruikt kunnen worden, zijn er gevallen waarin een bewerking toch handig is. Soms maakt de grootte van een waarde niet uit en gaat het je alleen om de richting, of om het feit of er überhaupt iets is. In zulke situaties wil je een kolom binariseren. In de gegevens in so_survey_df is er een grote groep respondenten die vrijwillig (onbetaald) werkt. Je maakt een nieuwe kolom Paid_Job die aangeeft of iemand betaald wordt (zijn of haar salaris is groter dan nul).
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Oefeninstructies
- Maak een nieuwe kolom
Paid_Jobaan, gevuld met nullen. - Vervang alle waarden in
Paid_Jobdoor 1 waar de bijbehorendeConvertedSalarygroter is dan 0.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the Paid_Job column filled with zeros
so_survey_df[____] = ____
# Replace all the Paid_Job values where ConvertedSalary is > 0
so_survey_df.____[____, 'Paid_Job'] = 1
# Print the first five rows of the columns
print(so_survey_df[['Paid_Job', 'ConvertedSalary']].head())