Film kümelerindeki en iyi terimler
Artık seyrek bir matris oluşturduğuna göre, küme merkezlerini üret ve her kümedeki en iyi üç terimi yazdır. kmeans() fonksiyonunun işlemesi için seyrek matris tfidf_matrix'i normal bir matrise dönüştürmek üzere .todense() yöntemini kullan. Ardından, tfidf_vectorizer nesnesindeki terimlerin listesini almak için .get_feature_names() yöntemini kullan. Python'daki zip() fonksiyonu iki listeyi birleştirir.
Önceki adımdan tfidf_vectorizer nesnesi ve seyrek matris tfidf_matrix bu egzersizde korunmuştur. SciPy'dan kmeans içe aktarılmıştır.
Daha fazla veri noktasıyla, oluşan kümeler daha net tanımlanır. Ancak bu, bir miktar hesaplama gücü gerektirir; burada bir egzersizde yapmak zor olabilir.
Bu egzersiz
Python ile Kümeleme Analizi
kursunun bir parçasıdırEgzersiz talimatları
kmeans()fonksiyonu ile küme merkezlerini üret.tfidf_vectorizernesnesinden terimlerin bir listesini üret.- Her kümenin en iyi 3 terimini yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
num_clusters = 2
# Generate cluster centers through the kmeans function
cluster_centers, distortion = ____
# Generate terms from the tfidf_vectorizer object
terms = tfidf_vectorizer.____()
for i in range(num_clusters):
# Sort the terms and print top 3 terms
center_terms = dict(zip(____, ____))
sorted_terms = sorted(____, key=center_terms.get, reverse=True)
print(____)