Elbow-methode

In de vorige oefening heb je MiniBatch K-means met 8 clusters geïmplementeerd, zonder echt te controleren wat het juiste aantal clusters zou moeten zijn. Voor onze eerste fraudedetectiebenadering is het belangrijk om het aantal clusters goed te kiezen, zeker als je de uitschieters van die clusters wilt gebruiken als fraudevoorspellingen. Om te bepalen hoeveel clusters je gaat gebruiken, passen we de Elbow-methode toe en kijken we wat op basis daarvan het optimale aantal clusters is.

X_scaled is weer beschikbaar en MiniBatchKMeans is geïmporteerd uit sklearn.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Bekijk cursus

Oefeninstructies

Definieer het bereik op 1 tot en met 5 clusters.
Voer MiniBatch K-means uit voor alle clusters in het bereik met list comprehension.
Fit elk model op de geschaalde data en haal de scores op van de geschaalde data.
Plot de clusternummers en hun respectieve scores; het uitvoeren duurt een paar seconden.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Define the range of clusters to try
clustno = range(____, ____)

# Run MiniBatch Kmeans over the number of clusters
kmeans = [____(n_clusters=i, random_state=0) for ____ in ____]

# Obtain the score for each model
score = [kmeans[i].fit(____).score(____) for i in range(len(kmeans))]

# Plot the models and their respective score 
plt.plot(____, ____)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

Code bewerken en uitvoeren