Model n-gram untuk slogan film
Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 9000 slogan film. Tugas Anda adalah membuat model n-gram hingga n sama dengan 1, n sama dengan 2, dan n sama dengan 3 untuk data ini, lalu mencari jumlah fitur untuk setiap model.
Kita kemudian akan membandingkan jumlah fitur yang dihasilkan oleh setiap model.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur untuk NLP di Python
Instruksi latihan
- Buat model n-gram dengan n-gram hingga n=1. Namai
ng1 - Buat model n-gram dengan n-gram hingga n=2. Namai
ng2 - Buat model n-gram dengan n-gram hingga n=3. Namai
ng3 - Cetak jumlah fitur untuk setiap model.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)
# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)
# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)
# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))