BaşlayınÜcretsiz Başlayın

Bir tf-idf sözcük sıklığı dizisi

Bu egzersizde, küçük bir belge koleksiyonu için tf-idf sözcük sıklığı dizisi oluşturacaksın. Bunun için sklearn içindeki TfidfVectorizer'ı kullan. Bu araç, belge listesini bir sözcük sıklığı dizisine dönüştürür ve çıktıyı bir csr_matrix olarak verir. Diğer sklearn nesneleri gibi fit() ve transform() yöntemlerine sahiptir.

Sana evcil hayvanlar hakkında örnek belgelerden oluşan documents listesi verildi.

Bu egzersiz

Python'da Unsupervised Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn.feature_extraction.text içinden TfidfVectorizer'ı import et.
  • tfidf adında bir TfidfVectorizer örneği oluştur.
  • tfidf'in .fit_transform() yöntemini documents üzerinde uygula ve sonucu csr_mat değişkenine ata. Bu, csr_matrix biçiminde bir sözcük-sıklığı dizisidir.
  • csr_mat'i .toarray() yöntemini çağırarak incele ve sonucu yazdır. Bu adım senin için yapıldı.
  • Dizinin sütunları sözcüklere karşılık gelir. Sözcüklerin listesini almak için tfidf'in .get_feature_names_out() yöntemini çağır ve sonucu words değişkenine ata.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Kodu Düzenle ve Çalıştır