Een populatie die voldoet aan de tijdlijn
Stel dat je een basistabel wilt bouwen voor een voorspellend model dat voorspelt of donoren in 2018 zullen doneren. De tijdlijn geeft aan dat de populatie alle donoren moet bevatten die minstens één keer hebben gedoneerd sinds 1 januari 2013, maar geen donaties hebben gedaan na 1 januari 2017.
Gegeven is een pandas-gegevensframe gifts met alle donaties sinds 2010. In deze oefening maak je een verzameling met de donor-id's van alle donoren in de populatie.
Deze oefening maakt deel uit van de cursus
Gevorderde voorspellende analyse in Python
Oefeninstructies
- Maak een dataframe
gifts_includemet alle giften gedaan in 2013 of later en een dataframegifts_excludemet alle giften gedaan in 2017 of later. - Maak een set
donors_includemet alle donor-id's van donoren ingifts_includeen een setdonors_excludemet alle donor-id's van donoren ingifts_exclude. - Stel de populatie samen met de methode
.difference()op je twee sets.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Gifts made in 2013 or later
gifts_include = ____[____[____].dt.year >= ____]
# Gifts made in 2017 or later
gifts_exclude = ____[____[____].dt.year >= ____]
# Set with ids in gifts_include
donors_include = ____(____[____])
# Set with ids in gifts_exclude
donors_exclude = ____(____[____])
# Population
population = ____.difference(____)
print(len(population))