Clustering K-means

Lors d’un entretien en Machine Learning, on peut vous demander comment utiliser la sortie d’un clustering K-means pour évaluer s’il s’agit du meilleur algorithme.

Dans cet exercice, vous allez pratiquer le clustering K-means. En utilisant l’attribut .inertia_ pour comparer des modèles avec différents nombres de clusters, k, vous utiliserez ensuite ces informations pour choisir le nombre de clusters dans l’exercice suivant.

Rappelez-vous que la variable cible dans le jeu de données diabetes est progression.

Où vous en êtes dans le pipeline :

Pipeline de Machine Learning

Cet exercice fait partie du cours

<cours>S’entraîner aux questions d’entretien en Machine Learning avec Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import module
from sklearn.cluster import KMeans

# Create feature matrix
X = diabetes.____("____", axis=1)

# Instantiate
kmeans = KMeans(n_clusters=2, random_state=123)

# Fit
fit = kmeans.____(____)

# Print inertia
print("Sum of squared distances for 2 clusters is", kmeans.inertia_)

Modifier et exécuter le code