Membandingkan kinerja model n-gram

Sekarang Anda mengetahui cara melakukan analisis sentimen dengan mengonversi teks ke berbagai representasi n-gram dan memberikannya ke sebuah classifier. Pada latihan ini, kita akan melakukan analisis sentimen untuk ulasan film yang sama seperti sebelumnya menggunakan dua model n-gram: unigram dan n-gram hingga n sama dengan 3.

Kita kemudian akan membandingkan kinerjanya menggunakan tiga kriteria: akurasi model pada himpunan uji, waktu yang dibutuhkan untuk mengeksekusi program, dan jumlah fitur yang dibuat saat menghasilkan representasi n-gram.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur untuk NLP di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

start_time = time.time()
# Splitting the data into training and test sets
train_X, test_X, train_y, test_y = train_test_split(df['review'], df['sentiment'], test_size=0.5, random_state=42, stratify=df['sentiment'])

# Generating ngrams
vectorizer = ___
train_X = vectorizer.fit_transform(train_X)
test_X = vectorizer.transform(test_X)

# Fit classifier
clf = MultinomialNB()
clf.fit(train_X, train_y)

# Print accuracy, time and number of dimensions
print("The program took %.3f seconds to complete. The accuracy on the test set is %.2f. The ngram representation had %i features." % (time.time() - start_time, clf.score(test_X, test_y), train_X.shape[1]))

Edit dan Jalankan Kode