Segmentatie bouwen met k-means-clustering
In deze oefening bouw je de klantsegmentatie met het KMeans-algoritme. Zoals je in de vorige stap hebt gezien, ligt het wiskundig optimale aantal clusters rond 3 of 4. Hier bouw je er een met 4 segmenten.
De voorbewerkte gegevensset is geladen als wholesale_scaled_df. Je gebruikt die om het KMeans-algoritme uit te voeren, en de ruwe, onbewerkte gegevensset als wholesale — die gebruik je later om de gemiddelde kolomwaarden te verkennen voor de 4 segmenten die je gaat maken.
Deze oefening maakt deel uit van de cursus
Machine Learning voor marketing in Python
Oefeninstructies
- Importeer het
KMeans-algoritme uit de modulesklearn.cluster. - Initialiseer het
KMeans-algoritme met 4 clusters en een random state van 123. - Pas het model aan op de voorbewerkte gegevensset
wholesale_scaled_df. - Ken de gegenereerde labels toe aan een nieuwe kolom
segmentin de ruwewholesale-gegevensset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import `KMeans` module
from sklearn.cluster import ___
# Initialize `KMeans` with 4 clusters
kmeans=KMeans(___=4, random_state=123)
# Fit the model on the pre-processed dataset
kmeans.fit(___)
# Assign the generated labels to a new column
wholesale_kmeans4 = wholesale.assign(segment = kmeans.___)