Explore os dados de gênero

O conjunto gender contém Weight, Height e o índice BMI de 10.000 pessoas. No conjunto original, há um rótulo Gender para 5.000 pessoas que se identificam como mulheres e outras 5.000 como homens. Esses rótulos serão úteis depois para testar o desempenho do agrupamento em relação aos rótulos reais. Porém, neste subconjunto do conjunto de dados, os rótulos não são fornecidos.

O conjunto gender_with_probs também contém as probabilidades de cada ponto pertencer a um cluster. Como estamos interessados em dois clusters, probabilidades próximas de 1 se referem a um cluster e próximas de 0 ao outro.

O objetivo deste exercício é dar uma olhada em como um conjunto de dados típico de clustering fica antes e depois do agrupamento.

Este exercício faz parte do curso

Modelos de Mistura em R

Instruções do exercício

Use a função head para ver as primeiras 6 observações de gender.
Use a função head para ver as primeiras 6 observações de gender_with_probs.
Faça um gráfico de dispersão com Weight no eixo x e BMI no eixo y. Colora os pontos pela sua probabilidade.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)

Editar e executar o código

Este exercício faz parte do curso

Modelos de Mistura em R

IntermediárioNível de habilidade

4.8+

Iniciar curso de graça

Neste capítulo, você será apresentado aos conceitos fundamentais de clustering baseado em modelos e a como essa abordagem difere de outras técnicas de agrupamento. Você vai aprender o processo gerador dos Modelos de Mistura Gaussianos e como visualizar os clusters.

Exercise 1: Introdução ao agrupamento baseado em modelos Exercise 2: Abordagens de clustering Exercise 3: Explore os dados de gênero

Exercício atual

Exercise 4: Distribuição Gaussiana Exercise 5: Amostrando de uma distribuição Gaussiana Exercise 6: (não tão boas) Estimativas da média e do desvio padrão Exercise 7: Modelos de mistura Gaussianos (GMM)Exercise 8: Simular uma mistura de duas distribuições Gaussianas Exercise 9: Plotar histograma de Mistura Gaussiana Exercise 10: Mistura de três distribuições Gaussianas

Neste capítulo, você será apresentado à estrutura principal dos Modelos de Mistura, como lidar com diferentes tipos de dados com essa abordagem e como estimar os parâmetros envolvidos. Para realizar a estimação, você vai aprender um método iterativo chamado algoritmo de Expectation-Maximization.

Exercise 1: Estrutura de modelos de mistura Exercise 2: Qual distribuição de probabilidade?Exercise 3: Conjunto de dados de dígitos manuscritos Exercise 4: Estimativa de parâmetros Exercise 5: Estimativa dada as probabilidades Exercise 6: Calculando as probabilidades Exercise 7: Algoritmo EM Exercise 8: Função de Expectativa Exercise 9: Função de maximização Exercise 10: Aplicar as duas etapas Exercise 11: Plotar os clusters estimados

Este capítulo mostra como ajustar Modelos de Mistura Gaussianos em 1 e 2 dimensões com o pacote `flexmix`. Os dados utilizados são formados por 10.000 observações de pessoas com peso, altura, índice de massa corporal e gênero informado.

Exercise 1: Modelos de Mistura Gaussiana Univariados Exercise 2: Número de clusters Exercise 3: Número de parâmetros Exercise 4: Modelos de Mistura Gaussiana Univariada com flexmix Exercise 5: Caso univariado com flexmix Exercise 6: Extraindo parâmetros para o caso univariado Exercise 7: Visualizando o Modelo de Mistura Gaussiana Univariado Exercise 8: Compare os resultados Exercise 9: Modelos de Mistura Gaussiana Bivariados Exercise 10: Termo cruzado da matriz de covariância Exercise 11: Parâmetros no caso bivariado Exercise 12: Modelos de Mistura Gaussiana Bivariados com flexmix Exercise 13: Ajuste o modelo com termos cruzados Exercise 14: Obter os componentes Exercise 15: Crie as elipses Exercise 16: Visualizar os clusters

Neste módulo, você vai aprender como os Modelos de Mistura se estendem para considerar distribuições de probabilidade diferentes da Gaussiana e como esses modelos são ajustados com `flexmix`. Os conjuntos de dados usados são imagens de dígitos manuscritos e o número de crimes na cidade de Chicago. No primeiro conjunto, você encontrará clusters que resumem os dígitos manuscritos e, no segundo, clusters de comunidades onde é mais ou menos perigoso viver.

Exercise 1: Modelos de Mistura de Bernoulli Exercise 2: Imagens binárias Exercise 3: Quantos valores?Exercise 4: Modelos de Mistura Bernoulli com flexmix Exercise 5: Dígitos manuscritos com `flexmix`Exercise 6: Modelos de Mistura de Poisson Exercise 7: Descubra o lambda Exercise 8: Amostrando de uma distribuição de Poisson Exercise 9: Modelos de Mistura de Poisson com flexmix Exercise 10: Dados de crimes com `flexmix`