Wikipedia kümeleme bölüm II
Artık önceki egzersizde oluşturduğun pipeline'ı çalıştırma zamanı! Sana bazı popüler Wikipedia makalelerinin tf-idf kelime sıklıklarından oluşan articles adlı bir dizi ve bu makalelerin başlıklarını içeren titles adlı bir liste verildi. Pipeline'ını kullanarak Wikipedia makalelerini kümelendir.
Önceki egzersizin çözümü senin için yüklendi; bu nedenle TruncatedSVD ile KMeans'i zincirleyen bir Pipeline pipeline hazır.
Bu egzersiz
Python'da Unsupervised Learning
kursunun bir parçasıdırEgzersiz talimatları
pandas'ıpdolarak içe aktar.- Pipeline'ı kelime sıklığı dizisi
articlesüzerine uydur. - Küme etiketlerini tahmin et.
- Küme etiketlerini makale başlıklarının listesi
titlesile hizalamak içinlabelsvetitlessütunlarına sahip birdfDataFrame'i oluştur. Bu senin için yapıldı. - DataFrame'i
'label'sütununa göre sıralamak içindf'nin.sort_values()metodunu kullan ve sonucu yazdır. - Yanıtı Gönder'e bas ve Wikipedia sayfalarının harika kümelenmesini biraz incele!
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import pandas
____
# Fit the pipeline to articles
____
# Calculate the cluster labels: labels
labels = ____
# Create a DataFrame aligning labels and titles: df
df = pd.DataFrame({'label': labels, 'article': titles})
# Display df sorted by cluster label
print(____)