Hiërarchische agglomeratieve clustering

In de vorige oefening zag je hoe het aantal clusters bij K-means-clustering je resultaten kan beïnvloeden, zodat je K-means kunt bespreken in een Machine Learning-sollicitatie. Een ander clusteringmodel dat je kunt gebruiken is hiërarchische agglomeratieve clustering. In Python kun je voor deze techniek het optimale aantal clusters zowel visueel als wiskundig bepalen. Je gebruikt de modules scipy en sklearn om beide te doen.

Onthoud dat het selecteren van het optimale aantal clusters uit een dendrogram afhangt van zowel het koppelingcriterium (linkage) als de afstandsdrempel. Hier maak je een dendrogram met de X-matrix uit diabetes, trek je vervolgens een denkbeeldige horizontale lijn op hoogte 1,50, en tel je het aantal verticale lijnen dat wordt gekruist om het optimale aantal clusters voor je hiërarchische clusteringalgoritme te bepalen.

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import hierarchical clustering libraries
import ____.____.____ as sch
from ____.____ import ____

Code bewerken en uitvoeren