Como está a integridade de nossos dados?
Novos dados foram incorporados ao DataFrame banking
, que contém detalhes sobre como os investimentos na coluna inv_amount
são alocados em quatro fundos diferentes: A, B, C e D.
Além disso, a idade e a data de nascimento dos clientes agora são armazenadas nas colunas age
e birth_date
, respectivamente.
Você quer entender como os clientes de diferentes faixas etárias investem. No entanto, primeiro você deve se certificar de que os dados que está analisando estão corretos. Você fará isso cruzando os valores dos campos inv_amount
e age
com o valor investido em diferentes fundos e datas de aniversário dos clientes.
Tanto o pandas
quanto o datetime
foram importados como pd
e dt
, respectivamente.
Este exercício faz parte do curso
Limpeza de dados em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])