or
Deze oefening maakt deel uit van de cursus
Leer hoe je de onderliggende groepen (of "clusters") in een gegevensset ontdekt. Aan het einde van dit hoofdstuk cluster je bedrijven op basis van hun aandelenkoersen en onderscheid je soorten door hun metingen te clusteren.
In dit hoofdstuk leer je twee unsupervised learning-technieken voor datavisualisatie: hiërarchisch clusteren en t-SNE. Hiërarchisch clusteren voegt datasamples samen tot steeds grovere clusters en levert zo een boomvisualisatie van de clustergelaagdheid op. t-SNE projecteert de datasamples in 2D-ruimte zodat je hun onderlinge nabijheid kunt visualiseren.
Dimensiereductie vat een gegevensset samen via veelvoorkomende patronen. In dit hoofdstuk leer je de belangrijkste techniek voor dimensiereductie kennen: "Principal Component Analysis" ("PCA"). PCA wordt vaak vóór supervised learning gebruikt om de modelprestatie en generalisatie te verbeteren. Het is ook nuttig voor unsupervised learning. Je gebruikt bijvoorbeeld een variant van PCA waarmee je Wikipedia-artikelen op basis van hun inhoud kunt clusteren!
In dit hoofdstuk maak je kennis met een techniek voor dimensiereductie, "Non-negative matrix factorization" ("NMF"), die samples uitdrukt als combinaties van interpreteerbare onderdelen. Zo kun je documenten weergeven als combinaties van onderwerpen en afbeeldingen als veelvoorkomende visuele patronen. Je leert ook NMF gebruiken om aanbevelingssystemen te bouwen die vergelijkbare artikelen kunnen vinden om te lezen, of muzikale artiesten die passen bij je luistergeschiedenis!
Huidige oefening