1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

Exercise

불필요한 문자 처리하기 (II)

이전 연습 문제에서는 df.head() 호출만으로 어떤 문자가 문제를 일으키는지 금방 알아볼 수 있었어요. 하지만 대부분의 경우 이렇게 뚜렷하지 않아요. 열 깊숙한 곳의 값들 때문에 해당 열을 숫자형으로 변환하지 못해, 모델이나 추가 특성 공학에 활용하지 못하는 상황이 자주 발생합니다.

이 값을 찾는 한 가지 방법은 pd.to_numeric()으로 해당 열을 원하는 자료형으로 강제 변환하고, 문제를 일으키는 값은 NaN으로 처리(coerce)한 다음, NaN이 포함된 행만 필터링하는 것입니다.

RawSalary 열을 float으로 변환해 보세요. 추가 문자가 포함되어 있어서 변환이 실패할 거예요. 그 문자를 찾아 제거한 뒤, 열을 float으로 변환하세요.

Instructions 1/2

undefined XP
    1
    2
  • so_survey_df의 RawSalary 열을 숫자형으로 변환하되, 변환 실패 값은 모두 null로 강제 변환하세요.
  • NaN이 포함된 행의 인덱스를 찾으세요.
  • 이 인덱스를 기준으로 RawSalary의 해당 행들을 출력하세요.