Wie steht es um unsere Datenintegrität?
Neue Daten wurden in den banking-DataFrame eingefügt, der Details darüber enthält, wie die Investitionen in der Spalte inv_amount auf vier verschiedene Fonds (A, B, C und D) verteilt sind.
Außerdem werden das Alter und die Geburtsdaten der Kunden in den Spalten age bzw. birth_date gespeichert.
Du willst verstehen, wie Kunden verschiedener Altersgruppen investieren. Du musst jedoch zunächst sicherstellen, dass die Daten, die du analysierst, korrekt sind. Dazu vergleichst du feldübergreifend die Werte von inv_amount und age mit den Beträgen, die in verschiedene Fonds investiert wurden, und mit den Geburtsdaten der Kunden.
Sowohl pandas als auch datetime wurden als pd bzw. dt importiert.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])