Wikipedia clusteren, deel I
Je zag in de video dat TruncatedSVD PCA kan uitvoeren op sparse arrays in csr_matrix-formaat, zoals woordfrequentie-arrays. Combineer je kennis van TruncatedSVD en k-means om enkele populaire Wikipedia-pagina’s te clusteren. In deze oefening bouw je de pipeline. In de volgende oefening pas je die toe op de woordfrequentie-array van een aantal Wikipedia-artikelen.
Maak een Pipeline-object dat bestaat uit een TruncatedSVD gevolgd door KMeans. (Deze keer hebben we de woordfrequentiematrix al voor je berekend, dus een TfidfVectorizer is niet nodig.)
De Wikipedia-gegevensset waar je mee werkt, is afkomstig van hier.
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer:
TruncatedSVDuitsklearn.decomposition.KMeansuitsklearn.cluster.make_pipelineuitsklearn.pipeline.
- Maak een
TruncatedSVD-instantie met de naamsvdmetn_components=50. - Maak een
KMeans-instantie met de naamkmeansmetn_clusters=6. - Maak een pipeline met de naam
pipelinedie bestaat uitsvdenkmeans.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____