Método do cotovelo
No exercício anterior, você implementou o MiniBatch K-means com 8 clusters, sem realmente verificar qual deveria ser a quantidade certa de clusters. Para nossa primeira abordagem de detecção de fraude, é importante acertar o número de clusters, especialmente quando você pretende usar os outliers desses clusters como previsões de fraude. Para decidir qual quantidade de clusters você vai usar, vamos aplicar o método do cotovelo e ver qual deve ser o número ideal de clusters com base nesse método.
X_scaled está disponível novamente para você usar e MiniBatchKMeans foi importado de sklearn.
Este exercício faz parte do curso
Detecção de Fraudes em Python
Instruções do exercício
- Defina o intervalo entre 1 e 5 clusters.
- Execute o MiniBatch K-means em todos os clusters do intervalo usando list comprehension.
- Faça o fit de cada modelo nos dados escalonados e obtenha os scores a partir dos dados escalonados.
- Faça o gráfico dos números de clusters e seus respectivos scores; a execução levará alguns segundos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define the range of clusters to try
clustno = range(____, ____)
# Run MiniBatch Kmeans over the number of clusters
kmeans = [____(n_clusters=i, random_state=0) for ____ in ____]
# Obtain the score for each model
score = [kmeans[i].fit(____).score(____) for i in range(len(kmeans))]
# Plot the models and their respective score
plt.plot(____, ____)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()