Mean target encoding

먼저, mean target encoding을 구현하는 함수를 만들어 보겠습니다. 다음 두 단계를 개발해야 한다는 점을 기억하세요:

학습셋에서 평균을 계산하고, 이를 테스트셋에 적용하기
학습셋을 K개의 폴드로 나눕니다. 각 폴드에 대해 out-of-fold 평균을 계산하고, 해당 폴드에 적용하기

각 단계는 각각 별도의 함수 test_mean_target_encoding()과 train_mean_target_encoding()에서 구현됩니다.

최종 함수 mean_target_encoding()은 인자로 학습 및 테스트 DataFrame, 인코딩할 범주형 열 이름, 타깃 열 이름, 그리고 스무딩 파라미터 alpha를 받습니다. 이 함수는 학습 및 테스트 DataFrame용 새 특성 두 개를 반환합니다.

과적합을 피하려면 스무딩이 필요합니다. 따라서 train_statistics 계산 시 분모에 \(\alpha\) 파라미터를 추가하세요.
테스트 데이터의 새로운 범주를 처리해야 합니다. 따라서 전역 평균을 fillna() 메서드의 인자로 전달하세요.