1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Eliminarea valorilor extreme pe bază de procente

O modalitate de a te asigura că un subset mic de date nu are un impact negativ prea mare este să elimini un anumit procent din cele mai mari și/sau cele mai mici valori ale coloanei. Acest lucru se poate realiza identificând cuantila relevantă și filtrând datele cu ajutorul unui masca. Această abordare este utilă mai ales atunci când valorile cele mai ridicate din setul tău de date ar putea denatura analiza. Reține însă că, atunci când folosești această metodă, vor fi eliminate cele mai mari N procente din date chiar și dacă nu există valori extreme.

Instrucțiuni

100 XP
  • Găsește cuantila de ordinul 95 a coloanei ConvertedSalary.
  • Filtrează DataFrame-ul so_numeric_df pentru a păstra doar rândurile în care ConvertedSalary este mai mic decât cuantila sa de ordinul 95.
  • Trasează histograma pentru so_numeric_df[['ConvertedSalary']].
  • Trasează histograma pentru trimmed_df[['ConvertedSalary']].