성별 데이터 탐색

gender 데이터에는 10,000명의 Weight, Height, BMI 지표가 들어 있습니다. 원본 데이터에는 자신을 여성으로 식별한 5,000명과 남성으로 식별한 5,000명에 대한 Gender 레이블이 있습니다. 이 레이블은 나중에 클러스터링이 실제 레이블과 얼마나 잘 맞는지 확인하는 데 유용해요. 하지만 이 데이터 하위집합에는 레이블이 제공되지 않습니다.

gender_with_probs 데이터에는 각 데이터 포인트가 어떤 클러스터에 속할 확률도 포함되어 있습니다. 우리가 두 개의 클러스터에 관심이 있으므로, 확률이 1에 가까우면 한 클러스터를, 0에 가까우면 다른 클러스터를 뜻해요.

이 연습 문제의 목적은 전형적인 클러스터링 데이터셋이 클러스터링 전후에 어떻게 보이는지 간단히 살펴보는 것입니다.