film sloganları için n-gram modelleri
Bu egzersizde, 9000'den fazla film sloganından oluşan bir corpus sağlandı. Görevimiz, bu veriler için n eşittir 1, n eşittir 2 ve n eşittir 3 olacak şekilde n-gram modelleri üretmek ve her model için öznitelik sayısını bulmak.
Ardından, her model için üretilen öznitelik sayılarını karşılaştıracağız.
Bu egzersiz, kursun bir parçasıdır
Python ile NLP için Özellik Mühendisliği
Egzersiz talimatları
- n=1'e kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng1olsun - n=2'ye kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng2olsun - n=3'e kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng3olsun - Her model için öznitelik sayısını yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))