ComeçarComece de graça

Explore os dados de gênero

O conjunto gender contém Weight, Height e o índice BMI de 10.000 pessoas. No conjunto original, há um rótulo Gender para 5.000 pessoas que se identificam como mulheres e outras 5.000 como homens. Esses rótulos serão úteis depois para testar o desempenho do agrupamento em relação aos rótulos reais. Porém, neste subconjunto do conjunto de dados, os rótulos não são fornecidos.

O conjunto gender_with_probs também contém as probabilidades de cada ponto pertencer a um cluster. Como estamos interessados em dois clusters, probabilidades próximas de 1 se referem a um cluster e próximas de 0 ao outro.

O objetivo deste exercício é dar uma olhada em como um conjunto de dados típico de clustering fica antes e depois do agrupamento.

Este exercício faz parte do curso

Modelos de Mistura em R

Ver curso

Instruções do exercício

  • Use a função head para ver as primeiras 6 observações de gender.
  • Use a função head para ver as primeiras 6 observações de gender_with_probs.
  • Faça um gráfico de dispersão com Weight no eixo x e BMI no eixo y. Colora os pontos pela sua probabilidade.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)
Editar e executar o código