1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Gestionarea caracterelor nedorite (II)

În exercițiul anterior, ai putut identifica rapid caracterele problematice folosind df.head(). În multe cazuri, însă, lucrurile nu vor fi atât de evidente. Adesea, valorile care împiedică conversia unei coloane la tip numeric se ascund adânc în date, blocând astfel utilizarea coloanei într-un model sau în procesul de inginerie a caracteristicilor.

O abordare pentru a găsi aceste valori este să forțezi conversia coloanei la tipul dorit folosind pd.to_numeric(), transformând valorile problematice în NaN, apoi să filtrezi DataFrame-ul păstrând doar rândurile care conțin aceste valori NaN.

Încearcă să convertești coloana RawSalary la tipul float – operațiunea va eșua, deoarece în coloană se află acum un caracter suplimentar nedorit. Identifică acel caracter și elimină-l, astfel încât coloana să poată fi convertită la float.

Instrucțiuni 1/2

undefined XP
    1
    2
  • Încearcă să convertești coloana RawSalary din so_survey_df la valori numerice, transformând toate eșecurile în valori nule.
  • Găsește indexurile rândurilor care conțin valori NaN.
  • Afișează rândurile din RawSalary corespunzătoare acestor indexuri.