범주형 열 인코딩 II: OneHotEncoder

좋아요. 이제 범주형 열을 숫자로 인코딩했네요. 바로 파이프라인과 XGBoost로 넘어가면 될까요? 아직은요! 이 데이터셋의 범주형 열에는 항목 간에 자연스러운 순서가 없습니다. 예를 들어, LabelEncoder를 사용하면 Neighborhood 값 CollgCr는 5, Veenker는 24, Crawfor는 6으로 인코딩됩니다. 그렇다면 Veenker가 Crawfor와 CollgCr보다 "더 크다"고 볼 수 있을까요? 그렇지 않습니다. 모델이 이런 자연스러운 순서를 가정하도록 두면 성능이 저하될 수 있어요.

따라서 한 단계가 더 필요합니다. 이진(또는 "더미") 변수를 만들기 위해 원-핫 인코딩을 적용해야 합니다. 이는 scikit-learn의 OneHotEncoder로 수행할 수 있습니다.