무작위 테스트 데이터셋 만들기

더 정교한 대출 모델을 구축하기 전에, 일부 대출 데이터를 홀드아웃해 미래 지원자의 결과를 얼마나 잘 예측하는지 시뮬레이션하는 것이 중요합니다.

다음 이미지처럼, 관측치의 75%는 학습용으로, 25%는 테스트용으로 사용할 수 있어요.

sample() 함수는 학습 세트에 포함할 행을 무작위로 추출하는 데 사용할 수 있습니다. 전체 관측치 수와 학습에 필요한 개수만 전달하면 됩니다.

생성된 행 ID 벡터를 사용해 loans를 학습용과 테스트용 데이터셋으로 부분 선택하세요. loans 데이터셋이 제공되어 있습니다.

nrow() 함수를 적용해 loans 데이터셋에 관측치가 몇 개인지, 그리고 75% 표본에 필요한 개수가 얼마인지 확인하세요.
sample() 함수를 사용해 75% 표본에 해당하는 행 ID의 정수 벡터를 만드세요. sample()의 첫 번째 인수는 데이터셋의 행 수이고, 두 번째 인수는 학습 세트에 필요한 행의 개수입니다.
행 ID를 사용해 loans 데이터를 부분 선택하여 학습 데이터셋을 만드세요. 이를 loans_train으로 저장하세요.
loans를 한 번 더 부분 선택하되, 이번에는 sample_rows에 포함되지 않은 모든 행을 선택하세요. 이를 loans_test로 저장하세요.