Clustering K-means

Lors d’un entretien en Machine Learning, on peut vous demander comment utiliser la sortie d’un clustering K-means pour évaluer s’il s’agit du meilleur algorithme.

Dans cet exercice, vous allez pratiquer le clustering K-means. En utilisant l’attribut .inertia_ pour comparer des modèles avec différents nombres de clusters, k, vous utiliserez ensuite ces informations pour choisir le nombre de clusters dans l’exercice suivant.

Rappelez-vous que la variable cible dans le jeu de données diabetes est progression.

Où vous en êtes dans le pipeline :

Pipeline de Machine Learning

Cet exercice fait partie du cours

S’entraîner aux questions d’entretien en Machine Learning avec Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import module
from sklearn.cluster import KMeans

# Create feature matrix
X = diabetes.____("____", axis=1)

# Instantiate
kmeans = KMeans(n_clusters=2, random_state=123)

# Fit
fit = kmeans.____(____)

# Print inertia
print("Sum of squared distances for 2 clusters is", kmeans.inertia_)

Modifier et exécuter le code