랜덤 포레스트 적합하기

영상에서 보셨듯이, 랜덤 포레스트 모델은 선형 모델보다 훨씬 유연해서 복잡한 비선형 효과를 모델링하고 변수 간 상호작용도 자동으로 포착할 수 있어요. 실제 데이터에서 좋은 성능을 내는 경우가 많으니, 이번에는 와인 품질 데이터셋으로 시도해 보겠습니다. 이 데이터셋의 목표는 한 배치의 와인에 대해 기계로 측정한 화학적·물리적 특성을 바탕으로 사람 평가 품질을 예측하는 것입니다.

랜덤 포레스트 모델을 적합하는 방법은 이전 장에서 하셨던 일반화 선형 회귀 모델과 완전히 동일합니다. train 함수의 method 인자만 "ranger"로 바꾸면 됩니다. ranger 패키지는 R의 고전적인 randomForest 패키지를 새로 구현한 것으로, 모델을 훨씬 빠르게 학습하지만 결과는 거의 동일합니다. 초보자분들께는 랜덤 포레스트 모델링에 ranger 패키지 사용을 권장드려요.