1. Nauka
  2. /
  3. Kursy
  4. /
  5. Preprocesare pentru Machine Learning în Python

Connected

ćwiczenie

Selectarea caracteristicilor relevante

În acest exercițiu, vei identifica coloanele redundante din setul de date volunteer și vei efectua selecția caracteristicilor pentru a obține un DataFrame cu atributele relevante.

De exemplu, dacă explorezi setul de date volunteer în consolă, vei observa trei caracteristici legate de locație: locality, region și postalcode. Acestea conțin informații similare, deci are sens să păstrezi doar una dintre ele.

Examinează caracteristicile din volunteer în consolă și încearcă să identifici caracteristicile redundante.

Instrukcje

100 XP
  • Creează o listă cu numele coloanelor redundante și stocheaz-o în variabila to_drop:
    • Din toate caracteristicile legate de locație, păstrează doar postalcode.
    • Caracteristicile care au trecut prin procesul de inginerie a caracteristicilor sunt, de asemenea, redundante.
  • Elimină coloanele din lista to_drop din setul de date.
  • Afișează .head() al variabilei volunteer_subset pentru a vedea coloanele selectate.