Explore os dados de gênero
O conjunto gender contém Weight, Height e o índice BMI de 10.000 pessoas. No conjunto original, há um rótulo Gender para 5.000 pessoas que se identificam como mulheres e outras 5.000 como homens. Esses rótulos serão úteis depois para testar o desempenho do agrupamento em relação aos rótulos reais. Porém, neste subconjunto do conjunto de dados, os rótulos não são fornecidos.
O conjunto gender_with_probs também contém as probabilidades de cada ponto pertencer a um cluster. Como estamos interessados em dois clusters, probabilidades próximas de 1 se referem a um cluster e próximas de 0 ao outro.
O objetivo deste exercício é dar uma olhada em como um conjunto de dados típico de clustering fica antes e depois do agrupamento.
Este exercício faz parte do curso
Modelos de Mistura em R
Instruções do exercício
- Use a função
headpara ver as primeiras 6 observações degender. - Use a função
headpara ver as primeiras 6 observações degender_with_probs. - Faça um gráfico de dispersão com
Weightno eixo x eBMIno eixo y. Colora os pontos pela sua probabilidade.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Have a look to gender (before clustering)
head(___)
# Have a look to gender_with_probs (after clustering)
head(___)
# Scatterplot with probabilities
gender_with_probs %>%
ggplot(aes(x = ___, y = ___, col = ___))+
geom_point(alpha = 0.5)