데이터 세트 분할하기

학습용 세트와 테스트 세트를 만들려면 먼저 set.seed()로 시드를 설정하세요. 시드는 무작위 수 생성의 시작점을 정해 주므로, 코드를 실행할 때마다 같은 결과가 재현됩니다. 이렇게 샘플링에 시드를 두면, 같은 시드를 사용해 누구나 동일한 학습용/테스트 세트를 정확히 재현할 수 있다는 장점이 있습니다.

sample()를 사용하면 관측값을 무작위로 학습용 세트와 테스트 세트에 배정할 수 있습니다.

이번 연습에서는 sample() 함수의 처음 두 인수를 사용합니다:

첫 번째 인수는 샘플링할 값들의 벡터입니다. 행 번호를 인덱스로 무작위 선택할 것이므로, 행 번호 벡터는 1:nrow(loan_data)로 만들 수 있습니다.
두 번째 인수는 선택할 항목의 개수입니다. 먼저 학습용 세트를 만들 것이므로 2 / 3 * nrow(loan_data)를 입력합니다.

set.seed() 함수를 사용해 시드를 567로 설정하세요.
학습용 세트의 행 인덱스를 index_train 객체에 저장하세요. 위에서 설명한 대로 sample()의 첫 번째와 두 번째 인수를 사용하세요.
데이터 세트 loan_data에서 index_train에 저장된 행 번호를 선택해 학습용 세트를 만들고, 결과를 training_set에 저장하세요.
테스트 세트는 index_train에 없는 행들로 구성합니다. 학습용 세트를 만들 때 사용한 코드를 복사하되, 대괄호 안에서 index_train 바로 앞에 음수 기호(-)를 붙여 사용하세요. 결과를 test_set에 저장하세요.

ćwiczenie

데이터 세트 분할하기

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie