BaşlayınÜcretsiz Başlayın

film sloganları için n-gram modelleri

Bu egzersizde, 9000'den fazla film sloganından oluşan bir corpus sağlandı. Görevimiz, bu veriler için n eşittir 1, n eşittir 2 ve n eşittir 3 olacak şekilde n-gram modelleri üretmek ve her model için öznitelik sayısını bulmak.

Ardından, her model için üretilen öznitelik sayılarını karşılaştıracağız.

Bu egzersiz

Python ile NLP için Özellik Mühendisliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • n=1'e kadar n-gram'larla bir n-gram modeli oluştur. Adı ng1 olsun
  • n=2'ye kadar n-gram'larla bir n-gram modeli oluştur. Adı ng2 olsun
  • n=3'e kadar n-gram'larla bir n-gram modeli oluştur. Adı ng3 olsun
  • Her model için öznitelik sayısını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))
Kodu Düzenle ve Çalıştır