Elbow-methode
In de vorige oefening heb je MiniBatch K-means met 8 clusters geïmplementeerd, zonder echt te controleren wat het juiste aantal clusters zou moeten zijn. Voor onze eerste fraudedetectiebenadering is het belangrijk om het aantal clusters goed te kiezen, zeker als je de uitschieters van die clusters wilt gebruiken als fraudevoorspellingen. Om te bepalen hoeveel clusters je gaat gebruiken, passen we de Elbow-methode toe en kijken we wat op basis daarvan het optimale aantal clusters is.
X_scaled is weer beschikbaar en MiniBatchKMeans is geïmporteerd uit sklearn.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Definieer het bereik op 1 tot en met 5 clusters.
- Voer MiniBatch K-means uit voor alle clusters in het bereik met list comprehension.
- Fit elk model op de geschaalde data en haal de scores op van de geschaalde data.
- Plot de clusternummers en hun respectieve scores; het uitvoeren duurt een paar seconden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define the range of clusters to try
clustno = range(____, ____)
# Run MiniBatch Kmeans over the number of clusters
kmeans = [____(n_clusters=i, random_state=0) for ____ in ____]
# Obtain the score for each model
score = [kmeans[i].fit(____).score(____) for i in range(len(kmeans))]
# Plot the models and their respective score
plt.plot(____, ____)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()