Modelo de eCommerce logístico: análisis k-means
Ahora que ya obtuviste un primer vistazo a los resultados del modelo, puedes profundizar en los patrones y relaciones entre resultados usando análisis de clusters.
Usarás el algoritmo k-means para ayudarte a entender los principales factores que controlan el comportamiento de tu modelo y clasificar los puntos de datos en grupos con propiedades similares. Esto te ayudará a identificar cuellos de botella en la operación real de e-commerce/logística que representa tu modelo.
kmeans y whiten se han importado desde scipy.cluster.vq y matplotlib.pyplot as plt. Los conjuntos de datos originales y blanqueados (whitened) tienen las columnas que se listan a continuación. La variable dummy p define los índices de estos procesos en los conjuntos de datos.
- columna 1 (
p=0):time_requests - columna 2 (
p=1):time_packaging - columna 3 (
p=2):time_shipping - columna 4 (
p=3):sum/total time
Este ejercicio forma parte del curso
Simulación de eventos discretos en Python
Instrucciones del ejercicio
- Aplica whiten al array
record_processes_nppara prepararlo para el clustering k-means. - Ejecuta el método k-means sobre el array
whitenedusando el paquete SciPy, configurándolo para encontrar tres clusters.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Whiten the record_processes_np array
whitened = ____(record_processes_np)
# Run the k-means method on whitened, using three clusters
codebook, distortion = ____(whitened, ____)
fig, axs = plt.subplots(3)
for p in range(3):
axs[p].scatter(whitened[:, 3], whitened[:, p], marker=".", label=f"{process_names[p]}")
axs[p].scatter(codebook[:, 3], codebook[:, p], label='Cluster Centroids')
axs[p].legend(loc='center left', bbox_to_anchor=(1, 0.5))
axs[p].set_ylabel(f'Process duration (days)')
axs[p].set_xlabel('Total duration (days)')
plt.show()