Clusterização hierárquica dos dados do caso
O objetivo deste exercício é fazer a clusterização hierárquica das observações. Lembre-se do Capítulo 2 que esse tipo de clusterização não pressupõe, de antemão, o número de grupos naturais existentes nos dados.
Como parte da preparação para a clusterização hierárquica, calcula-se a distância entre todos os pares de observações. Além disso, há diferentes maneiras de vincular clusters, sendo single, complete e average os métodos de ligação mais comuns.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
As variáveis que você criou antes, wisc.data, diagnosis, wisc.pr e pve, estão disponíveis no seu workspace.
- Padronize os dados
wisc.datae atribua o resultado adata.scaled. - Calcule as distâncias (Euclidianas) entre todos os pares de observações no novo conjunto de dados padronizado e atribua o resultado a
data.dist. - Crie um modelo de clusterização hierárquica usando complete linkage. Especifique manualmente o argumento
methodemhclust()e atribua os resultados awisc.hclust.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Scale the wisc.data data: data.scaled
# Calculate the (Euclidean) distances: data.dist
# Create a hierarchical clustering model: wisc.hclust