1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Python으로 Kaggle 대회 공략하기

Connected

Exercises

결측치 대체하기

Rental Listing Inquiries 데이터셋에서 "price"와 "building_id" 열에 결측치가 있다는 것을 확인했어요. 따라서 데이터를 모델에 전달하기 전에 이 값들을 적절히 대체해야 해요.

수치형 특성인 "price"는 결측이 아닌 값들의 평균으로 대체하겠습니다.

범주형 특성인 "building_id"를 가장 빈도가 높은 범주로 대체하는 것은 좋지 않은 선택이에요. 그렇게 하면 "building_id"가 비어 있는 모든 아파트가 가장 인기 있는 건물에 속한다고 가정하는 꼴이 되기 때문이에요. 대신 새로운 범주로 대체하는 것이 더 나은 방법이에요.

경진대회 데이터를 담은 DataFrame rental_listings는 미리 불러와 드렸어요.

คำแนะนำ 1 / 2

undefined XP
  • 1
    • "mean" 전략의 SimpleImputer 객체를 생성하세요.
    • 결측 가격을 평균값으로 대체하세요.
  • 2
    • "constant" 전략의 imputer를 생성하고, fill_value로 "MISSING"을 사용하세요.
    • 결측 건물 값을 상수로 대체하세요.