n-gram modellerinin performansını karşılaştırma

Artık metni farklı n-gram temsillerine dönüştürüp bir sınıflandırıcıya vererek duygu analizi yapmayı biliyorsun. Bu egzersizde, daha önceki aynı film yorumları için iki n-gram modelini kullanarak duygu analizi yapacağız: unigramlar ve n=3’e kadar olan n-gramlar.

Sonrasında performansı üç ölçüte göre karşılaştıracağız: test kümesindeki doğruluk, programın çalışma süresi ve n-gram temsili oluşturulurken yaratılan özellik sayısı.

Bu egzersiz, kursun bir parçasıdır

Python ile NLP için Özellik Mühendisliği

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

start_time = time.time()
# Splitting the data into training and test sets
train_X, test_X, train_y, test_y = train_test_split(df['review'], df['sentiment'], test_size=0.5, random_state=42, stratify=df['sentiment'])

# Generating ngrams
vectorizer = ___
train_X = vectorizer.fit_transform(train_X)
test_X = vectorizer.transform(test_X)

# Fit classifier
clf = MultinomialNB()
clf.fit(train_X, train_y)

# Print accuracy, time and number of dimensions
print("The program took %.3f seconds to complete. The accuracy on the test set is %.2f. The ngram representation had %i features." % (time.time() - start_time, clf.score(test_X, test_y), train_X.shape[1]))

Kodu Düzenle ve Çalıştır