BaşlayınÜcretsiz başlayın

Bir tf-idf sözcük sıklığı dizisi

Bu egzersizde, küçük bir belge koleksiyonu için tf-idf sözcük sıklığı dizisi oluşturacaksın. Bunun için sklearn içindeki TfidfVectorizer'ı kullan. Bu araç, belge listesini bir sözcük sıklığı dizisine dönüştürür ve çıktıyı bir csr_matrix olarak verir. Diğer sklearn nesneleri gibi fit() ve transform() yöntemlerine sahiptir.

Sana evcil hayvanlar hakkında örnek belgelerden oluşan documents listesi verildi.

Bu egzersiz, kursun bir parçasıdır

Python'da Unsupervised Learning

Kursa Göz Atın

Egzersiz talimatları

  • sklearn.feature_extraction.text içinden TfidfVectorizer'ı import et.
  • tfidf adında bir TfidfVectorizer örneği oluştur.
  • tfidf'in .fit_transform() yöntemini documents üzerinde uygula ve sonucu csr_mat değişkenine ata. Bu, csr_matrix biçiminde bir sözcük-sıklığı dizisidir.
  • csr_mat'i .toarray() yöntemini çağırarak incele ve sonucu yazdır. Bu adım senin için yapıldı.
  • Dizinin sütunları sözcüklere karşılık gelir. Sözcüklerin listesini almak için tfidf'in .get_feature_names_out() yöntemini çağır ve sonucu words değişkenine ata.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Kodu Düzenle ve Çalıştır