ComeçarComece de graça

Reduzindo a assimetria das variáveis

Agora você vai transformar as colunas de wholesale usando a transformação de Box-Cox e, em seguida, explorar o gráfico de relações pareadas para verificar se a assimetria das distribuições foi reduzida, deixando-as mais próximas de uma normal. Esse é um passo essencial para garantir que o algoritmo K-means converja e identifique grupos homogêneos (também chamados de clusters ou segmentos) de observações.

O módulo stats foi carregado da biblioteca scipy, e o conjunto de dados wholesale foi importado como um DataFrame do pandas.

Este exercício faz parte do curso

Machine Learning para Marketing em Python

Ver curso

Instruções do exercício

  • Defina uma função personalizada de transformação Box-Cox que possa ser aplicada a um DataFrame do pandas.
  • Aplique a função ao conjunto de dados wholesale.
  • Faça o gráfico das relações pareadas entre as variáveis transformadas.
  • Exiba o gráfico.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define custom Box Cox transformation function
def boxcox_df(x):
    x_boxcox, _ = stats.___(x)
    return x_boxcox

# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)

# Plot the pairwise relationships between the transformed variables 
sns.___(___, diag_kind='kde')

# Display the chart
plt.___()
Editar e executar o código