Agrupamento com resultados de PCA

Neste exercício final, você vai juntar várias etapas que usou antes e, com isso, vai experimentar um pouco da criatividade que é típica em aprendizado não supervisionado.

Relembre dos exercícios anteriores que o modelo de PCA exigiu significativamente menos variáveis para descrever 80% e 95% da variabilidade dos dados. Além de normalizar os dados e potencialmente evitar overfitting, o PCA também remove a correlação entre as variáveis, às vezes melhorando o desempenho de outras técnicas de modelagem.

Vamos ver se o PCA melhora ou piora o desempenho do agrupamento hierárquico.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

wisc.pr, diagnosis, wisc.hclust.clusters e wisc.km ainda estão disponíveis no seu workspace.

Usando o número mínimo de componentes principais necessário para descrever pelo menos 90% da variabilidade dos dados, crie um modelo de agrupamento hierárquico com complete linkage. Atribua o resultado a wisc.pr.hclust.
Corte esse modelo de agrupamento hierárquico em 4 clusters e atribua o resultado a wisc.pr.hclust.clusters.
Usando table(), compare os resultados do seu novo modelo de agrupamento hierárquico com os diagnósticos reais. Quão bem o novo modelo com quatro clusters separa os dois diagnósticos?
Quão bem os modelos de k-means e de agrupamento hierárquico que você criou em exercícios anteriores se saem em termos de separar os diagnósticos? Novamente, use a função table() para comparar a saída de cada modelo com o vetor que contém os diagnósticos reais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)

# Cut model into 4 clusters: wisc.pr.hclust.clusters


# Compare to actual diagnoses


# Compare to k-means and hierarchical

Editar e executar o código