Wikipedia'yı kümeleme I
Videoda TruncatedSVD'nin, kelime sıklığı dizileri gibi csr_matrix biçimindeki seyrek diziler üzerinde PCA yapabildiğini gördün. TruncatedSVD ve k-means bilgisini birleştirerek Wikipedia'daki popüler sayfaları kümelendir. Bu egzersizde, boru hattını oluşturacaksın. Sonraki egzersizde ise bunu bazı Wikipedia makalelerinin kelime sıklığı dizisine uygulayacaksın.
TruncatedSVD'nin ardından KMeans'ten oluşan bir Pipeline nesnesi oluştur. (Bu kez, kelime sıklığı matrisi senin için önceden hesaplandı; bu yüzden TfidfVectorizer'a gerek yok.)
Çalışacağın Wikipedia veri kümesi buradan alınmıştır.
Bu egzersiz
Python'da Unsupervised Learning
kursunun bir parçasıdırEgzersiz talimatları
- Şunları içe aktar:
sklearn.decompositioniçindenTruncatedSVD.sklearn.clusteriçindenKMeans.sklearn.pipelineiçindenmake_pipeline.
n_components=50ilesvdadlı birTruncatedSVDörneği oluştur.n_clusters=6ilekmeansadlı birKMeansörneği oluştur.svdvekmeans'ten oluşanpipelineadlı bir boru hattı oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____
# Create a TruncatedSVD instance: svd
svd = ____
# Create a KMeans instance: kmeans
kmeans = ____
# Create a pipeline: pipeline
pipeline = ____