1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

Cvičení

Vizualizace hlavních komponent pomocí scree plotu

Na pohovoru z oblasti machine learningu tě mohou požádat, abys určil/a optimální počet příznaků, které je vhodné zachovat. V tomto cvičení vytvoříš scree plot a graf kumulativního poměru vysvětleného rozptylu pro hlavní komponenty pomocí PCA na datasetu loan_data. Tyto vizualizace ti pomohou určit optimální počet hlavních komponent (PC) pro trénování přesnějšího ML modelu.

Protože PCA je metoda učení bez učitele, provádí se analýza hlavních komponent na matici X, ze které je odstraněná cílová proměnná Loan Status. Pokud nenastavíš n_components, model vrátí všechny hlavní komponenty.

Instrukce 1/4

undefined XP
  • 1
    • Vytvoř datovou matici X odstraněním cílové proměnné.
    • Vytvoř instanci objektu PCA, nastav jej na 10 PC, a proveď fit a transformaci dat.
  • 2
    • Vytvoř DataFrame, který mapuje Variance Explained na poměr vysvětleného rozptylu.
    • Vytvoř scree plot z pca_df s hlavními komponentami na ose x a vysvětleným rozptylem na ose y.
  • 3
    • Vytvoř instanci objektu PCA bez nastavení n_components, a proveď fit a transformaci dat.
    • Vypiš poměr vysvětleného rozptylu.
  • 4
    • Přiřaď kumulativní součet poměrů vysvětleného rozptylu z předchozího kroku do proměnné cumulative_var.
    • Vykresli výsledky.