Model n-gram untuk slogan film

Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 9000 slogan film. Tugas Anda adalah membuat model n-gram hingga n sama dengan 1, n sama dengan 2, dan n sama dengan 3 untuk data ini, lalu mencari jumlah fitur untuk setiap model.

Kita kemudian akan membandingkan jumlah fitur yang dihasilkan oleh setiap model.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Instruksi latihan

Buat model n-gram dengan n-gram hingga n=1. Namai ng1
Buat model n-gram dengan n-gram hingga n=2. Namai ng2
Buat model n-gram dengan n-gram hingga n=3. Namai ng3
Cetak jumlah fitur untuk setiap model.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))

Edit dan Jalankan Kode