Comece agoraComece grátis

Selecionando o número de clusters

Neste exercício, você vai comparar as saídas do seu modelo de clusterização hierárquica com os diagnósticos reais. Normalmente, ao realizar aprendizado não supervisionado como este, uma variável alvo não está disponível. Porém, neste conjunto de dados, ela existe e pode ser usada para verificar o desempenho do modelo de clusterização.

Ao realizar aprendizado supervisionado — isto é, quando você tenta prever alguma variável alvo de interesse e essa variável está disponível nos dados originais — usar clusterização para criar novas variáveis pode ou não melhorar o desempenho do modelo final. Este exercício vai ajudar você a determinar se, neste caso, a clusterização hierárquica oferece um novo atributo promissor.

Este exercicio faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercicio

wisc.data, diagnosis, wisc.pr, pve e wisc.hclust estão disponíveis no seu workspace.

  • Use cutree() para cortar a árvore de forma que ela tenha 4 clusters. Atribua a saída à variável wisc.hclust.clusters.
  • Use a função table() para comparar a associação aos clusters com os diagnósticos reais.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Cut tree so that it has 4 clusters: wisc.hclust.clusters


# Compare cluster membership to actual diagnoses
Editar e Executar Código