1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

연습 문제

값 구간화(Binning)

연속형 값의 경우, 숫자 열의 정확한 수치 자체보다는 그 값이 어느 구간(bucket)에 속하는지가 더 중요할 때가 많아요. 이는 값을 시각화하거나 Machine Learning 모델을 단순화할 때 유용합니다. 주로 나이, 키, 임금처럼 정밀도가 가장 중요한 이슈가 아닌 연속형 변수에 사용돼요.

구간은 pd.cut(df['column_name'], bins)로 만들며, 여기서 bins는 균등 간격 구간의 개수를 나타내는 정수이거나 구간 경계를 지정한 리스트가 될 수 있습니다.

지침 1/2

undefined XP
  • 1

    so_survey_df의 ConvertedSalary 값을 5개의 동일한 구간으로 나눠 equal_binned라는 새 열에 저장하세요.

  • 2

    리스트 bins에 있는 경계를 사용해 ConvertedSalary 열을 구간화하고, labels로 각 구간에 레이블을 지정하세요.