Aan de slagGa gratis aan de slag

Hoe staat het met onze dataintegriteit?

Nieuwe gegevens zijn samengevoegd in de banking DataFrame met details over hoe beleggingen in de kolom inv_amount zijn verdeeld over vier verschillende fondsen A, B, C en D.

Daarnaast zijn de leeftijden en verjaardagen van klanten nu respectievelijk opgeslagen in de kolommen age en birth_date.

Je wilt begrijpen hoe klanten uit verschillende leeftijdsgroepen beleggen. Maar eerst wil je zeker weten dat de gegevens die je analyseert kloppen. Dat doe je door waarden van inv_amount en age kruislings te controleren met de bedragen die in de verschillende fondsen zijn belegd en met de verjaardagen van klanten. Zowel pandas als datetime zijn geïmporteerd als respectievelijk pd en dt.

Deze oefening maakt deel uit van de cursus

Data opschonen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']

# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____

# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]

# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])
Code bewerken en uitvoeren