Model n-gram untuk slogan film
Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 9000 slogan film. Tugas Anda adalah membuat model n-gram hingga n sama dengan 1, n sama dengan 2, dan n sama dengan 3 untuk data ini, lalu mencari jumlah fitur untuk setiap model.
Kita kemudian akan membandingkan jumlah fitur yang dihasilkan oleh setiap model.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Petunjuk latihan
- Buat model n-gram dengan n-gram hingga n=1. Namai
ng1 - Buat model n-gram dengan n-gram hingga n=2. Namai
ng2 - Buat model n-gram dengan n-gram hingga n=3. Namai
ng3 - Cetak jumlah fitur untuk setiap model.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))