Questões práticas: padronização
Lembre do vídeo que agrupar dados reais pode exigir a padronização das variáveis se elas tiverem distribuições diferentes. Até agora neste capítulo, você trabalhou com dados sintéticos que não precisavam de padronização.
Neste exercício, você voltará a trabalhar com dados "reais", o conjunto pokemon apresentado no primeiro capítulo. Você vai observar a distribuição (média e desvio padrão) de cada variável, padronizar os dados de acordo e então gerar um modelo de agrupamento hierárquico usando o método de complete linkage.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
Os dados estão armazenados no objeto pokemon no seu workspace.
- Observe a média de cada variável em
pokemonusando a funçãocolMeans(). - Observe o desvio padrão de cada variável usando as funções
apply()esd(). Como as variáveis são as colunas da sua matriz, garanta que o valor 2 seja especificado como o argumentoMARGINdeapply(). - Padronize os dados de
pokemonusando a funçãoscale()e armazene o resultado empokemon.scaled. - Crie um modelo de agrupamento hierárquico dos dados
pokemon.scaledusando o método de complete linkage. Especifique manualmente o argumentomethode armazene o resultado emhclust.pokemon.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon