BaşlayınÜcretsiz Başlayın

Wikipedia kümeleme bölüm II

Artık önceki egzersizde oluşturduğun pipeline'ı çalıştırma zamanı! Sana bazı popüler Wikipedia makalelerinin tf-idf kelime sıklıklarından oluşan articles adlı bir dizi ve bu makalelerin başlıklarını içeren titles adlı bir liste verildi. Pipeline'ını kullanarak Wikipedia makalelerini kümelendir.

Önceki egzersizin çözümü senin için yüklendi; bu nedenle TruncatedSVD ile KMeans'i zincirleyen bir Pipeline pipeline hazır.

Bu egzersiz

Python'da Unsupervised Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • pandaspd olarak içe aktar.
  • Pipeline'ı kelime sıklığı dizisi articles üzerine uydur.
  • Küme etiketlerini tahmin et.
  • Küme etiketlerini makale başlıklarının listesi titles ile hizalamak için labels ve titles sütunlarına sahip bir df DataFrame'i oluştur. Bu senin için yapıldı.
  • DataFrame'i 'label' sütununa göre sıralamak için df'nin .sort_values() metodunu kullan ve sonucu yazdır.
  • Yanıtı Gönder'e bas ve Wikipedia sayfalarının harika kümelenmesini biraz incele!

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import pandas
____

# Fit the pipeline to articles
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})

# Display df sorted by cluster label
print(____)
Kodu Düzenle ve Çalıştır