1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Transformarea logaritmică

În exercițiile anterioare ai scalat datele liniar, ceea ce nu afectează forma distribuției lor. Această abordare funcționează bine când datele sunt distribuite normal (sau aproape normal) – o ipoteză pe care multe modele de machine learning o presupun. Uneori vei lucra cu date care se conformează îndeaproape normalității, cum ar fi înălțimea sau greutatea unei populații. Pe de altă parte, multe variabile din lumea reală nu urmează acest tipar – de exemplu, salariile sau vârsta unei populații. În acest exercițiu vei aplica o transformare logaritmică asupra coloanei ConvertedSalary din DataFrame-ul so_numeric_df, deoarece majoritatea valorilor sunt concentrate în jurul valorilor mici, dar există și valori foarte mari. Astfel de distribuții se numesc distribuții cu coadă lungă la dreapta.

Instrucțiuni

100 XP
  • Importă PowerTransformer din modulul preprocessing al bibliotecii sklearn.
  • Instanțiază PowerTransformer() ca pow_trans.
  • Antrenează PowerTransformer pe coloana ConvertedSalary din so_numeric_df.
  • Transformă aceeași coloană folosind scalerul pe care tocmai l-ai antrenat.