MulaiMulai sekarang secara gratis

Model n-gram untuk slogan film

Dalam latihan ini, Anda disediakan sebuah corpus berisi lebih dari 9000 slogan film. Tugas Anda adalah membuat model n-gram hingga n sama dengan 1, n sama dengan 2, dan n sama dengan 3 untuk data ini, lalu mencari jumlah fitur untuk setiap model.

Kita kemudian akan membandingkan jumlah fitur yang dihasilkan oleh setiap model.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Petunjuk latihan

  • Buat model n-gram dengan n-gram hingga n=1. Namai ng1
  • Buat model n-gram dengan n-gram hingga n=2. Namai ng2
  • Buat model n-gram dengan n-gram hingga n=3. Namai ng3
  • Cetak jumlah fitur untuk setiap model.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Generate n-grams upto n=1
vectorizer_ng1 = CountVectorizer(ngram_range=(1,1))
ng1 = vectorizer_ng1.____(corpus)

# Generate n-grams upto n=2
vectorizer_ng2 = CountVectorizer(ngram_range=(1,2))
ng2 = vectorizer_ng2.____(corpus)

# Generate n-grams upto n=3
vectorizer_ng3 = CountVectorizer(ngram_range=(____, ____))
ng3 = vectorizer_ng3.fit_transform(corpus)

# Print the number of features for each model
print("ng1, ng2 and ng3 have %i, %i and %i features respectively" % (ng1.____[1], ng2.____[1], ng3.____[1]))
Edit dan Jalankan Kode