1. Learn
  2. /
  3. कोर्स
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

अभ्यास

Praca z niechcianymi znakami (II)

W poprzednim ćwiczeniu wystarczyło jedno wywołanie df.head(), by od razu zobaczyć, które znaki powodują problem. W praktyce jednak tak oczywiste nie jest. Wartości utrudniające rzutowanie kolumny na typ liczbowy mogą być głęboko ukryte w danych – a bez tego nie można wykorzystać kolumny w modelu ani w dalszej inżynierii cech.

Jednym ze sposobów na znalezienie takich wartości jest wymuszenie konwersji kolumny do pożądanego typu za pomocą pd.to_numeric() z opcją zamiany problematycznych wartości na NaN, a następnie odfiltrowanie z DataFrame tylko wierszy zawierających te NaN-y.

Spróbuj rzutować kolumnę RawSalary na typ float – operacja zakończy się błędem, ponieważ w kolumnie pojawił się dodatkowy niechciany znak. Znajdź ten znak i usuń go, aby umożliwić rzutowanie kolumny na float.

निर्देश 1/2

undefined XP
    1
    2
  • Spróbuj przekonwertować kolumnę RawSalary ze zbioru so_survey_df na wartości liczbowe, zamieniając wszystkie nieudane konwersje na wartości null.
  • Znajdź indeksy wierszy zawierających wartości NaN.
  • Wyświetl wiersze z kolumny RawSalary odpowiadające tym indeksom.