Uma população compatível com a linha do tempo
Suponha que você queira construir uma base table para um modelo preditivo que prevê se doadores vão doar em 2018. A linha do tempo indica que a população deve conter todos os doadores que doaram pelo menos uma vez desde 1º de janeiro de 2013, mas não fizeram doações após 1º de janeiro de 2017.
É fornecido um pandas DataFrame gifts com todas as doações feitas desde 2010. Neste exercício, você vai construir um conjunto com os IDs de todos os doadores na população.
Este exercício faz parte do curso
Análise Preditiva Intermediária em Python
Instruções do exercício
- Construa um DataFrame
gifts_includecontendo todos os presentes feitos em 2013 ou depois e um DataFramegifts_excludecontendo todos os presentes feitos em 2017 ou depois. - Construa um conjunto
donors_includecontendo todos os IDs de doadores emgifts_includee um conjuntodonors_excludecontendo todos os IDs de doadores emgifts_exclude. - Construa a população usando o método
.difference()nos dois conjuntos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Gifts made in 2013 or later
gifts_include = ____[____[____].dt.year >= ____]
# Gifts made in 2017 or later
gifts_exclude = ____[____[____].dt.year >= ____]
# Set with ids in gifts_include
donors_include = ____(____[____])
# Set with ids in gifts_exclude
donors_exclude = ____(____[____])
# Population
population = ____.difference(____)
print(len(population))