1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

cvičení

Hledání chybějících hodnot

Otázky týkající se zpracování chybějících hodnot jsou nedílnou součástí každého pohovoru na pozici spojenou s Machine Learningem. Pokud dostaneš dataset s chybějícími hodnotami a nevěnuješ jim pozornost, výsledky se pravděpodobně zkreslí a přesnost modelu klesne.

V tomto cvičení si procvičíš první krok předzpracování dat: najdeš chybějící hodnoty a prozkoumáš způsoby, jak s nimi naložit – pomocí pandas a numpy na datasetu půjček zákazníků.

Dataset, který budeš v průběhu kurzu používat ve většině cvičení, je uložený v tvém pracovním prostoru pod názvem loan_data.

Tady vidíš, kde se v pipeline nacházíš:

Machine learning pipeline

Instrukce 1/4

undefined XP
  • 1
    • Vypiš příznaky datasetu loan_data spolu s počtem chybějících hodnot.
  • 2
    • Odstraň řádky s chybějícími hodnotami a vypiš, kolik procent řádků zůstalo.
  • 3
    • Odstraň sloupce s chybějícími hodnotami a vypiš, kolik procent sloupců zůstalo.
  • 4
    • Doplň chybějící hodnoty v loan_data hodnotou 0 a výsledek ulož do loan_data_filled.
    • Porovnej sloupec 'Credit Score' pomocí .describe() – před imputací (z loan_data) a po ní (z loan_data_filled).