1. Învăţa
  2. /
  3. Courses
  4. /
  5. PySpark로 하는 Feature Engineering

Connected

exercise

버킷화(Bucketing)

주택 소유자라면 침실이 1개인지, 2개인지, 3개인지, 4개인지가 매우 중요해요. 하지만 욕실 수와 마찬가지로 어떤 지점을 넘어서면 집에 침실이 7개인지 8개인지는 크게 신경 쓰지 않게 됩니다. 이 예제에서는 좋은 기준점을 찾아 버킷으로 묶는 방법을 살펴보겠습니다.

Instrucţiuni

100 XP
  • Seaborn의 distplot()을 사용해 pandas 데이터프레임 sample_df의 분포를 그려 보세요.
  • 5 이후에 드물게 나타나는 값들이 긴 꼬리를 이루는 것처럼 보이므로, 1, 2, 3, 4, 5+ 구간의 버킷 splits를 만드세요.
  • 버킷을 설정할 splits로 Bucketizer()를 생성해 변환기 buck을 만들고, 입력 컬럼은 BEDROOMS, 출력 컬럼은 bedrooms로 설정하세요.
  • transform()으로 df에 Bucketizer 변환을 적용해 결과를 df_bucket에 할당하세요. 그런 다음 show()로 결과를 확인하세요.