1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Preprocessing pro Machine Learning v Pythonu

Connected

cvičení

Výběr relevantních příznaků

V tomto cvičení identifikuješ nadbytečné sloupce v datasetu volunteer a provedeš výběr příznaků, jehož výsledkem bude DataFrame obsahující pouze relevantní příznaky.

Pokud si například prohlédneš dataset volunteer v konzoli, uvidíš tři příznaky související s polohou: locality, region a postalcode. Obsahují podobné informace, takže dává smysl ponechat pouze jeden z nich.

Prohledej příznaky datasetu volunteer v konzoli a zkus identifikovat ty nadbytečné.

Pokyny

100 XP
  • Vytvoř seznam názvů nadbytečných sloupců a ulož ho do proměnné to_drop:
    • Ze všech příznaků souvisejících s polohou ponech pouze postalcode.
    • Nadbytečné jsou také příznaky, které prošly procesem feature engineeringu.
  • Odstraň sloupce ze seznamu to_drop z datasetu.
  • Vypiš .head() proměnné volunteer_subset, abys viděl/a vybrané sloupce.