1. 학습
  2. /
  3. 강의
  4. /
  5. R로 배우는 Mixture Models

Connected

연습 문제

성별 데이터 탐색

gender 데이터에는 10,000명의 Weight, Height, BMI 지표가 들어 있습니다. 원본 데이터에는 자신을 여성으로 식별한 5,000명과 남성으로 식별한 5,000명에 대한 Gender 레이블이 있습니다. 이 레이블은 나중에 클러스터링이 실제 레이블과 얼마나 잘 맞는지 확인하는 데 유용해요. 하지만 이 데이터 하위집합에는 레이블이 제공되지 않습니다.

gender_with_probs 데이터에는 각 데이터 포인트가 어떤 클러스터에 속할 확률도 포함되어 있습니다. 우리가 두 개의 클러스터에 관심이 있으므로, 확률이 1에 가까우면 한 클러스터를, 0에 가까우면 다른 클러스터를 뜻해요.

이 연습 문제의 목적은 전형적인 클러스터링 데이터셋이 클러스터링 전후에 어떻게 보이는지 간단히 살펴보는 것입니다.

지침

100 XP
  • head 함수를 사용해 gender의 처음 6개 관측치를 확인하세요.
  • head 함수를 사용해 gender_with_probs의 처음 6개 관측치를 확인하세요.
  • x축에 Weight, y축에 BMI를 두고 산점도를 그리세요. 점의 색은 각 점의 확률로 지정하세요.