ComeçarComece de graça

Selecionando o número de clusters

Neste exercício, você vai comparar as saídas do seu modelo de clusterização hierárquica com os diagnósticos reais. Normalmente, ao realizar aprendizado não supervisionado como este, uma variável alvo não está disponível. Porém, neste conjunto de dados, ela existe e pode ser usada para verificar o desempenho do modelo de clusterização.

Ao realizar aprendizado supervisionado — isto é, quando você tenta prever alguma variável alvo de interesse e essa variável está disponível nos dados originais — usar clusterização para criar novas variáveis pode ou não melhorar o desempenho do modelo final. Este exercício vai ajudar você a determinar se, neste caso, a clusterização hierárquica oferece um novo atributo promissor.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

wisc.data, diagnosis, wisc.pr, pve e wisc.hclust estão disponíveis no seu workspace.

  • Use cutree() para cortar a árvore de forma que ela tenha 4 clusters. Atribua a saída à variável wisc.hclust.clusters.
  • Use a função table() para comparar a associação aos clusters com os diagnósticos reais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Cut tree so that it has 4 clusters: wisc.hclust.clusters


# Compare cluster membership to actual diagnoses
Editar e executar o código