1. 학습
  2. /
  3. 강의
  4. /
  5. Tidyverse로 배우는 범주형 데이터

Connected

연습 문제

비율 기준으로 변수 묶기

특정 수준을 다른 것으로 바꾸거나 합치고 싶지 않을 때가 많아요. 대신 가장 흔한 수준은 유지하고 나머지는 모두 "other"로 묶고 싶을 수 있어요. 특히 수준이 많고 대부분이 희귀할 때, 이는 데이터를 시각화하는 데 유용해요. Kaggle 설문에서 사람들이 내년에 시도하고 싶은 machine learning 방법에 대한 질문으로 이 방법을 연습해 볼게요. multiple_choice_responses는 이미 불러와 두었어요. 개수를 셀 때, sort = TRUE는 기본적으로 내림차순 정렬이라는 점을 기억하세요.

지침

100 XP
  • 방법을 선택하지 않은 응답자는 제거하세요.
  • MLMethodNextYearSelect에서 새로운 변수 ml_method를 만들어, 응답자의 최소 5%가 선택한 제목은 유지하고 나머지는 기본값인 "Other"로 묶으세요.
  • 마지막으로, 새 변수를 내림차순으로 정렬하여 집계하세요.