Wie steht es um unsere Datenintegrität?
Neue Daten wurden in den banking-DataFrame eingefügt, der Details darüber enthält, wie die Investitionen in der Spalte inv_amount auf vier verschiedene Fonds (A, B, C und D) verteilt sind.
Außerdem werden das Alter und die Geburtsdaten der Kunden in den Spalten age bzw. birth_date gespeichert.
Du willst verstehen, wie Kunden verschiedener Altersgruppen investieren. Du musst jedoch zunächst sicherstellen, dass die Daten, die du analysierst, korrekt sind. Dazu vergleichst du feldübergreifend die Werte von inv_amount und age mit den Beträgen, die in verschiedene Fonds investiert wurden, und mit den Geburtsdaten der Kunden.
Sowohl pandas als auch datetime wurden als pd bzw. dt importiert.
Diese Übung ist Teil des Kurses
<Kurs>Datenbereinigung in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])