film sloganları için n-gram modelleri
Bu egzersizde, 9000'den fazla film sloganından oluşan bir corpus sağlandı. Görevimiz, bu veriler için n eşittir 1, n eşittir 2 ve n eşittir 3 olacak şekilde n-gram modelleri üretmek ve her model için öznitelik sayısını bulmak.
Ardından, her model için üretilen öznitelik sayılarını karşılaştıracağız.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırEgzersiz talimatları
- n=1'e kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng1olsun - n=2'ye kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng2olsun - n=3'e kadar n-gram'larla bir n-gram modeli oluştur. Adı
ng3olsun - Her model için öznitelik sayısını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))