Corrige la asimetría de las variables
Ahora vas a transformar las columnas de wholesale usando la transformación de Box-Cox y luego explorar el gráfico de relaciones por pares para comprobar que la asimetría de las distribuciones se ha reducido y son más normales. Este es un paso clave para asegurarte de que el algoritmo K-means converge y descubre grupos homogéneos (también llamados clusters o segmentos) de observaciones.
El módulo stats se carga desde la librería scipy, y el conjunto de datos wholesale se ha importado como un DataFrame de pandas.
Este ejercicio forma parte del curso
Machine Learning para marketing en Python
Instrucciones del ejercicio
- Define una función personalizada de transformación Box-Cox que pueda aplicarse a un DataFrame de
pandas. - Aplica la función al conjunto de datos
wholesale. - Representa las relaciones por pares entre las variables transformadas.
- Muestra el gráfico.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Define custom Box Cox transformation function
def boxcox_df(x):
x_boxcox, _ = stats.___(x)
return x_boxcox
# Apply the function to the `wholesale` dataset
wholesale_boxcox = ___.___(boxcox_df, axis=0)
# Plot the pairwise relationships between the transformed variables
sns.___(___, diag_kind='kde')
# Display the chart
plt.___()