Erste SchritteKostenlos loslegen

Wie steht es um unsere Datenintegrität?

Neue Daten wurden in den banking-DataFrame eingefügt, der Details darüber enthält, wie die Investitionen in der Spalte inv_amount auf vier verschiedene Fonds (A, B, C und D) verteilt sind.

Außerdem werden das Alter und die Geburtstage der Kunden jetzt in den Spalten age bzw. birth_date gespeichert.

Du willst verstehen, wie Kunden verschiedener Altersgruppen investieren. Du musst jedoch zunächst sicherstellen, dass die Daten, die du analysierst, korrekt sind. Dazu vergleichst du feldübergreifend die Werte von inv_amount und age mit den Beträgen, die in verschiedene Fonds investiert wurden, und mit den Geburtstagen der Kunden. Sowohl pandas als auch datetime wurden als pd bzw. dt importiert.

Diese Übung ist Teil des Kurses

Datenbereinigung in Python

Kurs anzeigen

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Store fund columns to sum against
fund_columns = ['fund_A', 'fund_B', 'fund_C', 'fund_D']

# Find rows where fund_columns row sum == inv_amount
inv_equ = banking[____].____(____) == ____

# Store consistent and inconsistent data
consistent_inv = ____[____]
inconsistent_inv = ____[____]

# Store consistent and inconsistent data
print("Number of inconsistent investments: ", inconsistent_inv.shape[0])
Bearbeiten und Ausführen von Code