Kitap başlıkları için Bag-of-words
PyBooks'un daha fazla analiz için kodlanması gereken bir kitap başlıkları listesi var. Veri ekibi, Bag of Words (BoW) modelinin en iyi yaklaşım olabileceğini düşünüyor.
Senin için şu paketler içe aktarıldı: torch, torchtext.
Bu egzersiz
PyTorch ile Metin için Deep Learning
kursunun bir parçasıdırEgzersiz talimatları
- Bag-of-words'u uygulamak için
CountVectorizersınıfını içe aktar. - İçe aktardığın sınıftan bir nesne başlat ve bu nesneyi kullanarak
titlesverisini matris gösterimine dönüştür. get_feature_names_out()metoduyla ilk beş özellik adını ve kodlanmış başlıkları çıkar ve görüntüle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import from sklearn
from sklearn.feature_extraction.text import ____
titles = ['The Great Gatsby','To Kill a Mockingbird','1984','The Catcher in the Rye','The Hobbit', 'Great Expectations']
# Initialize Bag-of-words with the list of book titles
vectorizer = ____()
bow_encoded_titles = ____.fit_transform(____)
# Extract and print the first five features
print(vectorizer.____[:5])
print(bow_encoded_titles.toarray()[0, :5])