film sloganları için n-gram modelleri

Bu egzersizde, 9000'den fazla film sloganından oluşan bir corpus sağlandı. Görevimiz, bu veriler için n eşittir 1, n eşittir 2 ve n eşittir 3 olacak şekilde n-gram modelleri üretmek ve her model için öznitelik sayısını bulmak.

Ardından, her model için üretilen öznitelik sayılarını karşılaştıracağız.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Egzersiz talimatları

n=1'e kadar n-gram'larla bir n-gram modeli oluştur. Adı ng1 olsun
n=2'ye kadar n-gram'larla bir n-gram modeli oluştur. Adı ng2 olsun
n=3'e kadar n-gram'larla bir n-gram modeli oluştur. Adı ng3 olsun
Her model için öznitelik sayısını yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Kodu Düzenle ve Çalıştır