Reduzindo a assimetria das variáveis
Agora você vai transformar as colunas de wholesale usando a transformação de Box-Cox e, em seguida, explorar o gráfico de relações pareadas para verificar se a assimetria das distribuições foi reduzida, deixando-as mais próximas de uma normal. Esse é um passo essencial para garantir que o algoritmo K-means converja e identifique grupos homogêneos (também chamados de clusters ou segmentos) de observações.
O módulo stats foi carregado da biblioteca scipy, e o conjunto de dados wholesale foi importado como um DataFrame do pandas.
Este exercício faz parte do curso
Machine Learning para Marketing em Python
Instruções do exercício
- Defina uma função personalizada de transformação Box-Cox que possa ser aplicada a um DataFrame do
pandas. - Aplique a função ao conjunto de dados
wholesale. - Faça o gráfico das relações pareadas entre as variáveis transformadas.
- Exiba o gráfico.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define custom Box Cox transformation function
def boxcox_df(x):
x_boxcox, _ = stats.___(x)
return x_boxcox
# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)
# Plot the pairwise relationships between the transformed variables
sns.___(___, diag_kind='kde')
# Display the chart
plt.___()