Une population conforme à la frise chronologique
Supposons que vous vouliez construire une base table pour un modèle prédictif qui anticipe si des donateurs feront un don en 2018. La frise chronologique indique que la population doit contenir tous les donateurs ayant fait au moins un don depuis le 1er janvier 2013, mais aucun don après le 1er janvier 2017.
On vous fournit un dataframe pandas gifts avec tous les dons effectués depuis 2010. Dans cet exercice, vous allez construire un ensemble contenant les identifiants des donateurs appartenant à la population.
Cet exercice fait partie du cours
Analytique prédictive intermédiaire en Python
Instructions
- Construisez un dataframe
gifts_includecontenant tous les dons effectués en 2013 ou après, et un dataframegifts_excludecontenant tous les dons effectués en 2017 ou après. - Construisez un ensemble
donors_includecontenant tous les identifiants des donateurs dansgifts_include, et un ensembledonors_excludecontenant tous les identifiants des donateurs dansgifts_exclude. - Construisez la population en utilisant la méthode
.difference()sur vos deux ensembles.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Gifts made in 2013 or later
gifts_include = ____[____[____].dt.year >= ____]
# Gifts made in 2017 or later
gifts_exclude = ____[____[____].dt.year >= ____]
# Set with ids in gifts_include
donors_include = ____(____[____])
# Set with ids in gifts_exclude
donors_exclude = ____(____[____])
# Population
population = ____.difference(____)
print(len(population))