1. Uczyć się
  2. /
  3. Courses
  4. /
  5. R로 연습하는 통계 면접 질문

Connected

Exercise

데이터 인코딩

범주형 데이터를 인코딩하면 Machine Learning 알고리즘에서 활용할 수 있어요. R은 요인을 내부적으로 인코딩하지만, 직접 모델 을 만들 때는 인코딩이 필요합니다.

이번 연습에서는 먼저 lm()으로 선형 회귀 모형을 만들고, 이어서 직접 모델을 단계별로 만들어 볼 거예요.

원-핫 인코딩(one hot encoding)에서는 각 수준(level)마다 별도의 열을 만듭니다.

여기서 한 열은 다른 열들로부터 유도될 수 있다는 점에 주의하세요(예: "B"와 "C" 열이 모두 0이면 "A" 열은 1). 따라서 선형 회귀에서는 첫 번째 열을 제거해도 됩니다. 선형 모델은 다음 장에서 더 자세히 살펴보겠습니다.

원-핫 인코딩에는 caret 패키지의 dummyVars()를 사용할 수 있어요.

사용 방법은, 먼저 인코더를 만든 다음 데이터셋을 변환하면 됩니다:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

MASS 패키지의 설문조사 데이터에서 결측이 없는 완전 사례는 survey로 제공됩니다. caret 패키지는 이미 로드되어 있어요.

Instrukcje 1 / 3

undefined XP
    1
    2
    3
  • survey 데이터를 사용해 Exer로 Pulse를 예측하는 선형 모델을 적합하세요. 모델의 계수는 무엇인가요?