데이터 프레임을 무작위로 섞기

데이터셋을 학습/테스트로 나누는 한 가지 방법은 데이터셋의 순서를 무작위로 섞은 뒤, 두 부분으로 나누는 것입니다. 이렇게 하면 학습용과 테스트용이 모두 무작위 표본이 되며, 데이터셋의 기존 정렬(예: 가격이나 크기 순)이 학습/테스트 표본에 그대로 남는 편향을 막을 수 있습니다. 새 카드 한 벌을 나눠 주기 전에 먼저 잘 섞는 것과 같은 개념이라고 생각하시면 됩니다.

먼저, 작업을 재현 가능하게 하고 스크립트를 실행할 때마다 같은 무작위 분할을 얻을 수 있도록 랜덤 시드를 설정합니다:

set.seed(42)

다음으로, diamonds 데이터셋의 행 인덱스를 섞기 위해 sample() 함수를 사용합니다. 이 인덱스는 나중에 데이터셋의 순서를 바꾸는 데 사용합니다.

rows <- sample(nrow(diamonds))

마지막으로, 이 무작위 벡터를 사용해 diamonds 데이터셋의 순서를 바꿀 수 있습니다:

diamonds <- diamonds[rows, ]

랜덤 시드를 42로 설정하세요.
rows라는 이름의 행 인덱스 벡터를 만드세요.
diamonds 데이터 프레임의 순서를 무작위로 바꿔 shuffled_diamonds에 할당하세요.

연습 문제

데이터 프레임을 무작위로 섞기

지침

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}연습 문제

지침

연습 문제