or
Deze oefening maakt deel uit van de cursus
Voordat je klaar bent om nieuwsartikelen te classificeren, maak je eerst kennis met de basis van clustering. Dit hoofdstuk laat je kennismaken met een klasse van machinelearning-algoritmen, unsupervised learning, en introduceert vervolgens clustering, een van de populaire unsupervised learning-algoritmen. Je leert over twee veelgebruikte clusteringtechnieken: hiërarchische clustering en k-means clustering. Het hoofdstuk sluit af met basisstappen voor het voorbewerken van data voordat je gaat clusteren.
Dit hoofdstuk richt zich op een populair clusteringalgoritme — hiërarchische clustering — en de implementatie ervan in SciPy. Naast de procedure om hiërarchische clustering uit te voeren, helpt het je een belangrijke vraag te beantwoorden: hoeveel clusters zitten er in je data? Het hoofdstuk eindigt met een bespreking van de beperkingen van hiërarchische clustering en aandachtspunten bij het gebruik ervan.
Dit hoofdstuk introduceert een ander clusteringalgoritme — k-means clustering — en de implementatie ervan in SciPy. K-means clustering pakt het grootste nadeel van hiërarchische clustering aan dat in het vorige hoofdstuk is besproken. Omdat dendrogrammen specifiek zijn voor hiërarchische clustering, bespreekt dit hoofdstuk een methode om het aantal clusters te bepalen voordat je k-means clustering uitvoert. Het hoofdstuk sluit af met een bespreking van de beperkingen van k-means clustering en aandachtspunten bij het gebruik van dit algoritme.
Nu je bekend bent met twee van de meest populaire clusteringtechnieken, helpt dit hoofdstuk je om die kennis toe te passen op realistische problemen. Eerst komt het bepalen van dominante kleuren in een afbeelding aan bod, waarna we teruggaan naar het probleem uit de introductie: het clusteren van nieuwsartikelen. Het hoofdstuk sluit af met een bespreking van clusteren met meerdere variabelen, wat het lastiger maakt om alle data te visualiseren.
Huidige oefening