Boyutluluk ve ön işlemeyi analiz etme

Bu egzersizde, önceki egzersizdeki film sloganlarının ön işlemden geçirilmiş hâllerini içeren bir lem_corpus verildi. Başka bir deyişle, sloganlar küçük harfe çevrildi, köklerine indirgenip (lemmatize edilip) durak sözcükler çıkarıldı.

Görevin, bu lemmatize edilmiş sloganlar için bag-of-words gösterimi olan bow_lem_matrix'i üretmek ve önceki egzersizde elde edilen bow_matrix'in şekliyle karşılaştırmak. lem_corpus içindeki ilk beş lemmatize slogan incelemen için konsola yazdırıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

sklearn içinden CountVectorizer sınıfını içe aktar.
Bir CountVectorizer nesnesi oluştur. Adı vectorizer olsun.
fit_transform() kullanarak lem_corpus için bow_lem_matrix'i üret.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)

Kodu Düzenle ve Çalıştır