Een dummy voor ontbrekende waarden maken
Gegeven een basetable met een voorspellende variabele "total_donations" die het totale aantal donaties bevat dat een donateur ooit heeft gedaan. Deze variabele kan ontbrekende waarden bevatten, wat aangeeft dat deze donateur nog nooit eerder heeft gedoneerd. Dat is op zichzelf belangrijke informatie, dus het is passend om een variabele "no_donations" te maken die aangeeft of "total_donations" ontbreekt.
Deze oefening maakt deel uit van de cursus
Gevorderde voorspellende analyse in Python
Oefeninstructies
- Maak een nieuwe kolom "no_donations" in
basetabledie de waarde 1 heeft alstotal_donationsontbreekt en anders 0. - Bereken het aantal ontbrekende waarden in
total_donationsen ken dit toe aannumber_na. - Print het percentage ontbrekende waarden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create dummy indicating missing values
basetable["____"] = pd.Series([____ if b else ____ for b in basetable["total_donations"].isna()])
# Calculate number of missing values
number_na = sum(____["no_donations"] == ____)
# Calculate percentage of missing values
print(round(____ / ____(____), 2))