중앙값 대치 적용하기

이번 장에서는 Wisconsin Breast Cancer 데이터셋의 한 버전을 사용합니다. 이 데이터셋은 전형적인 이진 분류 문제로, 샘플의 50%는 양성이고 50%는 악성입니다. 목표는 어떤 샘플이 어느 클래스에 속하는지 구분하는 것입니다.

이 데이터셋의 흥미로운 점은 많은 예측 변수가 결측값을 포함하고 있고, 대부분의 행에 최소 한 개의 결측값이 있다는 것입니다. 이는 대부분의 Machine Learning 알고리즘이 기본적으로 결측값을 처리하지 못하기 때문에 모델링의 어려움을 줍니다. 예를 들어, 처음에는 이 데이터에 로지스틱 회귀 모델을 적합하고 싶을 수 있지만, 그전에 NA를 어떻게 처리할지 전략이 필요합니다.

다행히 caret의 train() 함수에는 preProcess라는 인수가 있어, 결측값을 중앙값으로 대치(median imputation)하도록 지정할 수 있습니다. 이전 장들에서는 y ~ . 같은 공식을 사용해 train() 함수로 모델을 만들었습니다. 다른 방법으로는 train()에 x와 y 인수를 직접 지정하는 것입니다. 여기서 x는 행에 샘플, 열에 특성이 있는 객체이고, y는 결과를 담는 숫자형 또는 범주형 벡터입니다. 다시 말해, x는 예를 들어 lm() 호출에서 data 인수로 사용할 전체 데이터셋(반응 변수 열 제외)을 담은 행렬 또는 데이터 프레임이고, y는 반응 변수 열만 담은 벡터입니다.

이번 연습에서는 train()의 x 인수로 사용할 breast_cancer_x와 y 인수로 사용할 breast_cancer_y가 작업 공간에 로드되어 있습니다.

train() 함수를 사용해 유방암 데이터셋에 glm 모델을 적합하고, 객체 이름을 median_model로 지정하세요. 결측값 처리를 위해 preProcess = "medianImpute"를 사용하세요.
median_model을 콘솔에 출력하세요.

연습 문제

중앙값 대치 적용하기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제