ComeçarComece de graça

Método do cotovelo

No exercício anterior, você implementou o MiniBatch K-means com 8 clusters, sem realmente verificar qual deveria ser a quantidade certa de clusters. Para nossa primeira abordagem de detecção de fraude, é importante acertar o número de clusters, especialmente quando você pretende usar os outliers desses clusters como previsões de fraude. Para decidir qual quantidade de clusters você vai usar, vamos aplicar o método do cotovelo e ver qual deve ser o número ideal de clusters com base nesse método.

X_scaled está disponível novamente para você usar e MiniBatchKMeans foi importado de sklearn.

Este exercício faz parte do curso

Detecção de Fraudes em Python

Ver curso

Instruções do exercício

  • Defina o intervalo entre 1 e 5 clusters.
  • Execute o MiniBatch K-means em todos os clusters do intervalo usando list comprehension.
  • Faça o fit de cada modelo nos dados escalonados e obtenha os scores a partir dos dados escalonados.
  • Faça o gráfico dos números de clusters e seus respectivos scores; a execução levará alguns segundos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define the range of clusters to try
clustno = range(____, ____)

# Run MiniBatch Kmeans over the number of clusters
kmeans = [____(n_clusters=i, random_state=0) for ____ in ____]

# Obtain the score for each model
score = [kmeans[i].fit(____).score(____) for i in range(len(kmeans))]

# Plot the models and their respective score 
plt.plot(____, ____)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()
Editar e executar o código