Aan de slagGa gratis aan de slag

Wikipedia clusteren, deel I

Je zag in de video dat TruncatedSVD PCA kan uitvoeren op sparse arrays in csr_matrix-formaat, zoals woordfrequentie-arrays. Combineer je kennis van TruncatedSVD en k-means om enkele populaire Wikipedia-pagina’s te clusteren. In deze oefening bouw je de pipeline. In de volgende oefening pas je die toe op de woordfrequentie-array van een aantal Wikipedia-artikelen.

Maak een Pipeline-object dat bestaat uit een TruncatedSVD gevolgd door KMeans. (Deze keer hebben we de woordfrequentiematrix al voor je berekend, dus een TfidfVectorizer is niet nodig.)

De Wikipedia-gegevensset waar je mee werkt, is afkomstig van hier.

Deze oefening maakt deel uit van de cursus

Unsupervised Learning in Python

Cursus bekijken

Oefeninstructies

  • Importeer:
    • TruncatedSVD uit sklearn.decomposition.
    • KMeans uit sklearn.cluster.
    • make_pipeline uit sklearn.pipeline.
  • Maak een TruncatedSVD-instantie met de naam svd met n_components=50.
  • Maak een KMeans-instantie met de naam kmeans met n_clusters=6.
  • Maak een pipeline met de naam pipeline die bestaat uit svd en kmeans.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Code bewerken en uitvoeren