Wie steht es um unsere Datenintegrität?
Neue Daten wurden in den banking
-DataFrame eingefügt, der Details darüber enthält, wie die Investitionen in der Spalte inv_amount
auf vier verschiedene Fonds (A, B, C und D) verteilt sind.
Außerdem werden das Alter und die Geburtstage der Kunden jetzt in den Spalten age
bzw. birth_date
gespeichert.
Du willst verstehen, wie Kunden verschiedener Altersgruppen investieren. Du musst jedoch zunächst sicherstellen, dass die Daten, die du analysierst, korrekt sind. Dazu vergleichst du feldübergreifend die Werte von inv_amount
und age
mit den Beträgen, die in verschiedene Fonds investiert wurden, und mit den Geburtstagen der Kunden.
Sowohl pandas
als auch datetime
wurden als pd
bzw. dt
importiert.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']
# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____
# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]
# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])