Regroupement hiérarchique agglomératif
Dans le dernier exercice, vous avez vu comment le nombre de groupes lors d’un K-means pouvait influencer vos résultats, ce qui vous permet d’en parler en entretien de Machine Learning. Cependant, un autre modèle de regroupement que vous pouvez utiliser est le regroupement hiérarchique agglomératif. En Python, vous pouvez déterminer le nombre optimal de groupes pour cette technique à la fois visuellement et mathématiquement. Vous utiliserez les modules scipy et sklearn pour les deux approches.
Rappelez-vous que le choix du nombre optimal de groupes à partir d’un dendrogramme dépend à la fois du critère de liaison et du seuil de distance. Ici, vous allez créer un dendrogramme avec la matrice X issue de diabetes, puis tracer mentalement une ligne à la hauteur 1.50 et compter le nombre de segments verticaux croisés pour déterminer le nombre optimal de groupes à utiliser pour votre algorithme de regroupement hiérarchique par la suite.
Cet exercice fait partie du cours
S’entraîner aux questions d’entretien en Machine Learning avec Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import hierarchical clustering libraries
import ____.____.____ as sch
from ____.____ import ____