BaşlayınÜcretsiz Başlayın

Boyutluluk ve ön işlemeyi analiz etme

Bu egzersizde, önceki egzersizdeki film sloganlarının ön işlemden geçirilmiş hâllerini içeren bir lem_corpus verildi. Başka bir deyişle, sloganlar küçük harfe çevrildi, köklerine indirgenip (lemmatize edilip) durak sözcükler çıkarıldı.

Görevin, bu lemmatize edilmiş sloganlar için bag-of-words gösterimi olan bow_lem_matrix'i üretmek ve önceki egzersizde elde edilen bow_matrix'in şekliyle karşılaştırmak. lem_corpus içindeki ilk beş lemmatize slogan incelemen için konsola yazdırıldı.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • sklearn içinden CountVectorizer sınıfını içe aktar.
  • Bir CountVectorizer nesnesi oluştur. Adı vectorizer olsun.
  • fit_transform() kullanarak lem_corpus için bow_lem_matrix'i üret.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import CountVectorizer
from sklearn.feature_extraction.text import ____

# Create CountVectorizer object
____ = ____

# Generate matrix of word vectors
bow_lem_matrix = ____.____(lem_corpus)

# Print the shape of bow_lem_matrix
print(bow_lem_matrix.shape)
Kodu Düzenle ve Çalıştır