K-means-clustering

In een Machine Learning-sollicitatie kan je gevraagd worden hoe je de output van K-means-clustering gebruikt om de prestaties te beoordelen en te bepalen of het de beste algoritmische keuze is.

In deze oefening ga je aan de slag met K-means-clustering. Met de eigenschap .inertia_ vergelijk je modellen met verschillende aantallen clusters, k. Die info gebruik je in de volgende oefening om het juiste aantal clusters te kiezen.

Onthoud dat de doelvariabele in de diabetes-gegevensset progression is.

Waar je je bevindt in de pijplijn:

Machine learning pipeline

Deze oefening maakt deel uit van de cursus

Machine Learning-sollicitatievragen oefenen in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import module
from sklearn.cluster import KMeans

# Create feature matrix
X = diabetes.____("____", axis=1)

# Instantiate
kmeans = KMeans(n_clusters=2, random_state=123)

# Fit
fit = kmeans.____(____)

# Print inertia
print("Sum of squared distances for 2 clusters is", kmeans.inertia_)

Code bewerken en uitvoeren