Vissengegevens schalen voor clustering
Je krijgt een array samples met metingen van vissen. Elke rij stelt een individuele vis voor. De metingen, zoals gewicht in gram, lengte in centimeter en de procentuele verhouding van hoogte tot lengte, hebben heel verschillende schalen. Om deze data effectief te clusteren, moet je deze features eerst standaardiseren. In deze oefening bouw je een pipeline om de data te standaardiseren en te clusteren.
Deze vismetingen zijn afkomstig uit de Journal of Statistics Education.
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer:
make_pipelineuitsklearn.pipeline.StandardScaleruitsklearn.preprocessing.KMeansuitsklearn.cluster.
- Maak een instantie van
StandardScalermet de naamscaler. - Maak een instantie van
KMeansmet4clusters met de naamkmeans. - Maak een pipeline met de naam
pipelinediescalerenkmeansaan elkaar koppelt. Dit doe je door ze als argumenten door te geven aanmake_pipeline().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create scaler: scaler
scaler = ____
# Create KMeans instance: kmeans
kmeans = ____
# Create pipeline: pipeline
pipeline = ____