Selecionando o número de clusters
Neste exercício, você vai comparar as saídas do seu modelo de clusterização hierárquica com os diagnósticos reais. Normalmente, ao realizar aprendizado não supervisionado como este, uma variável alvo não está disponível. Porém, neste conjunto de dados, ela existe e pode ser usada para verificar o desempenho do modelo de clusterização.
Ao realizar aprendizado supervisionado — isto é, quando você tenta prever alguma variável alvo de interesse e essa variável está disponível nos dados originais — usar clusterização para criar novas variáveis pode ou não melhorar o desempenho do modelo final. Este exercício vai ajudar você a determinar se, neste caso, a clusterização hierárquica oferece um novo atributo promissor.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
wisc.data, diagnosis, wisc.pr, pve e wisc.hclust estão disponíveis no seu workspace.
- Use
cutree()para cortar a árvore de forma que ela tenha 4 clusters. Atribua a saída à variávelwisc.hclust.clusters. - Use a função
table()para comparar a associação aos clusters com os diagnósticos reais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses