1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

cvičení

Jak je na tom integrita našich dat?

Do DataFrame banking byla přidána nová data s podrobnostmi o tom, jak jsou investice ve sloupci inv_amount rozděleny mezi čtyři různé fondy A, B, C a D.

Věk zákazníků a jejich data narození jsou teď uloženy ve sloupcích age a birth_date.

Chceš zjistit, jak zákazníci různých věkových skupin investují. Nejdřív si ale chceš ověřit, že data, se kterými pracuješ, jsou správná. Uděláš to tak, že pomocí křížové validace porovnáš hodnoty inv_amount a age s částkami investovanými do jednotlivých fondů a daty narození zákazníků. Knihovna pandas je naimportovaná jako pd a datetime jako dt.

Instrukce 1/2

undefined XP
  • 1
    • Najdi řádky, kde se součet všech sloupců fund_columns v banking rovná sloupci inv_amount.
    • Ulož hodnoty z banking s konzistentní hodnotou inv_amount do consistent_inv a ty s nekonzistentní do inconsistent_inv.
  • 2
    • Ulož dnešní datum do today a ručně vypočítej věk zákazníků, který ulož do ages_manual.
    • Najdi všechny řádky banking, kde se sloupec age rovná ages_manual, a pak filtruj banking do consistent_ages a inconsistent_ages.