BaşlayınÜcretsiz Başlayın

Wikipedia'yı kümeleme I

Videoda TruncatedSVD'nin, kelime sıklığı dizileri gibi csr_matrix biçimindeki seyrek diziler üzerinde PCA yapabildiğini gördün. TruncatedSVD ve k-means bilgisini birleştirerek Wikipedia'daki popüler sayfaları kümelendir. Bu egzersizde, boru hattını oluşturacaksın. Sonraki egzersizde ise bunu bazı Wikipedia makalelerinin kelime sıklığı dizisine uygulayacaksın.

TruncatedSVD'nin ardından KMeans'ten oluşan bir Pipeline nesnesi oluştur. (Bu kez, kelime sıklığı matrisi senin için önceden hesaplandı; bu yüzden TfidfVectorizer'a gerek yok.)

Çalışacağın Wikipedia veri kümesi buradan alınmıştır.

Bu egzersiz

Python'da Unsupervised Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Şunları içe aktar:
    • sklearn.decomposition içinden TruncatedSVD.
    • sklearn.cluster içinden KMeans.
    • sklearn.pipeline içinden make_pipeline.
  • n_components=50 ile svd adlı bir TruncatedSVD örneği oluştur.
  • n_clusters=6 ile kmeans adlı bir KMeans örneği oluştur.
  • svd ve kmeans'ten oluşan pipeline adlı bir boru hattı oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____
Kodu Düzenle ve Çalıştır