ComeçarComece de graça

Questões práticas: padronização

Lembre do vídeo que agrupar dados reais pode exigir a padronização das variáveis se elas tiverem distribuições diferentes. Até agora neste capítulo, você trabalhou com dados sintéticos que não precisavam de padronização.

Neste exercício, você voltará a trabalhar com dados "reais", o conjunto pokemon apresentado no primeiro capítulo. Você vai observar a distribuição (média e desvio padrão) de cada variável, padronizar os dados de acordo e então gerar um modelo de agrupamento hierárquico usando o método de complete linkage.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

Os dados estão armazenados no objeto pokemon no seu workspace.

  • Observe a média de cada variável em pokemon usando a função colMeans().
  • Observe o desvio padrão de cada variável usando as funções apply() e sd(). Como as variáveis são as colunas da sua matriz, garanta que o valor 2 seja especificado como o argumento MARGIN de apply().
  • Padronize os dados de pokemon usando a função scale() e armazene o resultado em pokemon.scaled.
  • Crie um modelo de agrupamento hierárquico dos dados pokemon.scaled usando o método de complete linkage. Especifique manualmente o argumento method e armazene o resultado em hclust.pokemon.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon
Editar e executar o código