1. Learn
  2. /
  3. Cursuri
  4. /
  5. Exersează întrebări de interviu pentru Machine Learning în Python

Connected

exercițiu

Gestionarea valorilor aberante

În exercițiul anterior, ai văzut cât de utilă poate fi vizualizarea valorilor aberante într-un interviu de machine learning. O altă metodă practică de gestionare a acestora este calculul scorului Z, care definește un prag pentru valorile aberante situate la aproximativ +/-3 abateri standard față de medie.

În acest exercițiu, vei folosi modulul scipy.stats pentru a calcula scorul Z cu funcția stats.zscore(), și funcția mstats.winsorize() pentru a înlocui valorile aberante printr-o tehnică numită Winsorizing.

Reține din lecția video că punctele situate peste și/sau sub de 1,5 ori intervalul intercuartilic (IQR) sunt considerate potențiale valori aberante. Pentru ultimul pas al acestui exercițiu, acea valoare este 2120.

Pachetele necesare au fost deja importate, iar coloanele numerice și categoriale din loan_data au fost extrase și salvate ca numeric_cols, respectiv categoric_cols.

Machine learning pipeline

Instrucțiuni 1/3

undefined XP
  • 1
    • Creează un index al rândurilor de păstrat pentru scorurile Z absolute mai mici de 3 pe coloanele numerice și folosește-l pentru a indexa și concatena subseturile.
  • 2
    • Aplică Winsorizing pe 'Monthly Debt' cu limite superioare și inferioare de 5% și afișează media, mediana și valoarea maximă înainte și după aplicare.
  • 3
    • Calculează mediana valorilor din Monthly Debt care sunt mai mici de 2120 și înlocuiește valorile aberante cu aceasta.