Agrupamento com resultados de PCA
Neste exercício final, você vai juntar várias etapas que usou antes e, com isso, vai experimentar um pouco da criatividade que é típica em aprendizado não supervisionado.
Relembre dos exercícios anteriores que o modelo de PCA exigiu significativamente menos variáveis para descrever 80% e 95% da variabilidade dos dados. Além de normalizar os dados e potencialmente evitar overfitting, o PCA também remove a correlação entre as variáveis, às vezes melhorando o desempenho de outras técnicas de modelagem.
Vamos ver se o PCA melhora ou piora o desempenho do agrupamento hierárquico.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
wisc.pr, diagnosis, wisc.hclust.clusters e wisc.km ainda estão disponíveis no seu workspace.
- Usando o número mínimo de componentes principais necessário para descrever pelo menos 90% da variabilidade dos dados, crie um modelo de agrupamento hierárquico com complete linkage. Atribua o resultado a
wisc.pr.hclust. - Corte esse modelo de agrupamento hierárquico em 4 clusters e atribua o resultado a
wisc.pr.hclust.clusters. - Usando
table(), compare os resultados do seu novo modelo de agrupamento hierárquico com os diagnósticos reais. Quão bem o novo modelo com quatro clusters separa os dois diagnósticos? - Quão bem os modelos de k-means e de agrupamento hierárquico que você criou em exercícios anteriores se saem em termos de separar os diagnósticos? Novamente, use a função
table()para comparar a saída de cada modelo com o vetor que contém os diagnósticos reais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical