Hierarchisches agglomeratives Clustering

In der letzten Übung hast du gesehen, wie sich die Anzahl der Cluster beim K-Means-Clustering auf deine Ergebnisse auswirken kann – ein gutes Gesprächsthema für ein Machine-Learning-Interview. Ein weiteres Clustering-Verfahren ist das hierarchische agglomerative Clustering. In Python kannst du für diese Technik die optimale Clusterzahl sowohl visuell als auch mathematisch bestimmen. Du wirst die Module scipy und sklearn für beides verwenden.

Denk daran: Die Auswahl der optimalen Clusterzahl aus einem Dendrogramm hängt sowohl vom Linkage-Kriterium als auch vom Distanzschwellenwert ab. Hier erstellst du ein Dendrogramm mit der Matrix X aus diabetes und ziehst dann eine gedachte Linie bei der Länge 1,50, wobei du die Anzahl der gekreuzten vertikalen Linien zählst. Diese Zahl entspricht der optimalen Clusteranzahl für dein hierarchisches Clustering im weiteren Verlauf.

Diese Übung ist Teil des Kurses

<Kurs>ML-Vorstellungsgespräche in Python üben</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import hierarchical clustering libraries
import ____.____.____ as sch
from ____.____ import ____

Code bearbeiten und ausführen