Hierarchisches agglomeratives Clustering
In der letzten Übung hast du gesehen, wie sich die Anzahl der Cluster beim K-Means-Clustering auf deine Ergebnisse auswirken kann – ein gutes Gesprächsthema für ein Machine-Learning-Interview. Ein weiteres Clustering-Verfahren ist das hierarchische agglomerative Clustering. In Python kannst du für diese Technik die optimale Clusterzahl sowohl visuell als auch mathematisch bestimmen. Du wirst die Module scipy und sklearn für beides verwenden.
Denk daran: Die Auswahl der optimalen Clusterzahl aus einem Dendrogramm hängt sowohl vom Linkage-Kriterium als auch vom Distanzschwellenwert ab. Hier erstellst du ein Dendrogramm mit der Matrix X aus diabetes und ziehst dann eine gedachte Linie bei der Länge 1,50, wobei du die Anzahl der gekreuzten vertikalen Linien zählst. Diese Zahl entspricht der optimalen Clusteranzahl für dein hierarchisches Clustering im weiteren Verlauf.
Diese Übung ist Teil des Kurses
ML-Vorstellungsgespräche in Python üben
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import hierarchical clustering libraries
import ____.____.____ as sch
from ____.____ import ____