저분산 레시피 만들기

tidymodels 패키지에는 각각 step_zv()와 step_nzv() 함수가 있어, 분산이 없거나(nearly zero 포함) 거의 0에 가까운 특성을 더 나은 방식으로 걸러낼 수 있습니다. 이 레시피 단계들은 각 특성에서 고유값의 개수와 가장 빈도가 높은 값의 빈도 비율을 확인해 저분산 특성을 식별합니다. 이 방법은 앞서 사용한 단순한 분산 임계값보다 더 견고합니다.

또한, 특성 분산을 정규화하기 위해 step_scale() 레시피 단계를 사용합니다. 서로 다른 특성 간 분산을 비교 가능하게 만들기 위해 데이터를 정규화하는 것은 항상 좋은 방법임을 기억하세요.

house_sales_df가 제공되어 있습니다. 목표 변수는 price입니다. tidyverse와 tidymodels 패키지도 미리 로드되어 있습니다.