1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Gruparea valorilor în intervale

În multe cazuri, pentru valorile continue nu contează atât valoarea exactă a unei coloane numerice, cât intervalul în care aceasta se încadrează. Acest lucru poate fi util atunci când vizualizezi date sau când simplifici modelele de machine learning. Această tehnică este folosită mai ales pentru variabile continue unde precizia nu este esențială – de exemplu, vârstă, înălțime sau salarii.

Intervalele se creează folosind pd.cut(df['column_name'], bins), unde bins poate fi un număr întreg care specifică numărul de intervale egal distribuite sau o listă cu limitele intervalelor.

Instrucțiuni 1/2

undefined XP
  • 1

    Grupează valorile coloanei ConvertedSalary din so_survey_df în 5 intervale egale, într-o nouă coloană numită equal_binned.

  • 2

    Grupează coloana ConvertedSalary folosind limitele din lista bins și etichetează intervalele cu ajutorul labels.