Bir tf-idf sözcük sıklığı dizisi
Bu egzersizde, küçük bir belge koleksiyonu için tf-idf sözcük sıklığı dizisi oluşturacaksın. Bunun için sklearn içindeki TfidfVectorizer'ı kullan. Bu araç, belge listesini bir sözcük sıklığı dizisine dönüştürür ve çıktıyı bir csr_matrix olarak verir. Diğer sklearn nesneleri gibi fit() ve transform() yöntemlerine sahiptir.
Sana evcil hayvanlar hakkında örnek belgelerden oluşan documents listesi verildi.
Bu egzersiz
Python'da Unsupervised Learning
kursunun bir parçasıdırEgzersiz talimatları
sklearn.feature_extraction.textiçindenTfidfVectorizer'ı import et.tfidfadında birTfidfVectorizerörneği oluştur.tfidf'in.fit_transform()yönteminidocumentsüzerinde uygula ve sonucucsr_matdeğişkenine ata. Bu, csr_matrix biçiminde bir sözcük-sıklığı dizisidir.csr_mat'i.toarray()yöntemini çağırarak incele ve sonucu yazdır. Bu adım senin için yapıldı.- Dizinin sütunları sözcüklere karşılık gelir. Sözcüklerin listesini almak için
tfidf'in.get_feature_names_out()yöntemini çağır ve sonucuwordsdeğişkenine ata.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import TfidfVectorizer
from ____ import ____
# Create a TfidfVectorizer: tfidf
tfidf = ____
# Apply fit_transform to document: csr_mat
csr_mat = ____
# Print result of toarray() method
print(csr_mat.toarray())
# Get the words: words
words = ____
# Print words
print(words)