Aan de slagGa gratis aan de slag

Kolommen binariseren

Hoewel numerieke waarden vaak zonder feature engineering gebruikt kunnen worden, zijn er gevallen waarin een bewerking toch handig is. Soms maakt de grootte van een waarde niet uit en gaat het je alleen om de richting, of om het feit of er überhaupt iets is. In zulke situaties wil je een kolom binariseren. In de gegevens in so_survey_df is er een grote groep respondenten die vrijwillig (onbetaald) werkt. Je maakt een nieuwe kolom Paid_Job die aangeeft of iemand betaald wordt (zijn of haar salaris is groter dan nul).

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Maak een nieuwe kolom Paid_Job aan, gevuld met nullen.
  • Vervang alle waarden in Paid_Job door 1 waar de bijbehorende ConvertedSalary groter is dan 0.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create the Paid_Job column filled with zeros
so_survey_df[____] = ____

# Replace all the Paid_Job values where ConvertedSalary is > 0
so_survey_df.____[____, 'Paid_Job'] = 1

# Print the first five rows of the columns
print(so_survey_df[['Paid_Job', 'ConvertedSalary']].head())
Code bewerken en uitvoeren