1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

Cvičení

Imputace chybějících hodnot

Ve sloupci "price" a "building_id" datasetu Rental Listing Inquiries jsi našel/a chybějící hodnoty. Než data předáš modelům, je potřeba tyto hodnoty imputovat.

Numerický příznak "price" bude nahrazen průměrnou hodnotou z dostupných cen.

Imputovat kategorický příznak "building_id" nejčastější kategorií by nebylo vhodné – znamenalo by to, že všechny byty s chybějícím "building_id" se nacházejí v nejpopulárnější budově. Lepší přístup je doplnit novou kategorii.

DataFrame rental_listings s daty ze soutěže je již načtený.

Instrukce 1/2

undefined XP
  • 1
    • Vytvoř objekt SimpleImputer se strategií "mean".
    • Doplň chybějící ceny průměrnou hodnotou.
  • 2
    • Vytvoř imputer se strategií "constant". Jako fill_value použij "MISSING".
    • Doplň chybějící identifikátory budov konstantní hodnotou.