Clusterização hierárquica dos dados do caso

O objetivo deste exercício é fazer a clusterização hierárquica das observações. Lembre-se do Capítulo 2 que esse tipo de clusterização não pressupõe, de antemão, o número de grupos naturais existentes nos dados.

Como parte da preparação para a clusterização hierárquica, calcula-se a distância entre todos os pares de observações. Além disso, há diferentes maneiras de vincular clusters, sendo single, complete e average os métodos de ligação mais comuns.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

As variáveis que você criou antes, wisc.data, diagnosis, wisc.pr e pve, estão disponíveis no seu workspace.

Padronize os dados wisc.data e atribua o resultado a data.scaled.
Calcule as distâncias (Euclidianas) entre todos os pares de observações no novo conjunto de dados padronizado e atribua o resultado a data.dist.
Crie um modelo de clusterização hierárquica usando complete linkage. Especifique manualmente o argumento method em hclust() e atribua os resultados a wisc.hclust.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Scale the wisc.data data: data.scaled


# Calculate the (Euclidean) distances: data.dist


# Create a hierarchical clustering model: wisc.hclust

Editar e executar o código