Com'è messa l'integrità dei nostri dati?
Nel DataFrame banking sono stati uniti nuovi dati che indicano come gli investimenti nella colonna inv_amount sono distribuiti tra quattro fondi diversi A, B, C e D.
Inoltre, l'età e le date di nascita dei clienti sono ora memorizzate rispettivamente nelle colonne age e birth_date.
Vuoi capire come investono i clienti di fasce d'età diverse. Prima però vuoi assicurarti che i dati che stai analizzando siano corretti. Lo farai verificando incrociando i valori di inv_amount e age con gli importi investiti nei diversi fondi e con le date di nascita dei clienti.
Sia pandas che datetime sono stati importati rispettivamente come pd e dt.
Questo esercizio fa parte del corso
Pulizia dei dati in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])