n-gram modellerinin performansını karşılaştırma
Artık metni farklı n-gram temsillerine dönüştürüp bir sınıflandırıcıya vererek duygu analizi yapmayı biliyorsun. Bu egzersizde, daha önceki aynı film yorumları için iki n-gram modelini kullanarak duygu analizi yapacağız: unigramlar ve n=3’e kadar olan n-gramlar.
Sonrasında performansı üç ölçüte göre karşılaştıracağız: test kümesindeki doğruluk, programın çalışma süresi ve n-gram temsili oluşturulurken yaratılan özellik sayısı.
Bu egzersiz
Python ile NLP için Özellik Mühendisliği
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
start_time = time.time()
# Splitting the data into training and test sets
train_X, test_X, train_y, test_y = train_test_split(df['review'], df['sentiment'], test_size=0.5, random_state=42, stratify=df['sentiment'])
# Generating ngrams
vectorizer = ___
train_X = vectorizer.fit_transform(train_X)
test_X = vectorizer.transform(test_X)
# Fit classifier
clf = MultinomialNB()
clf.fit(train_X, train_y)
# Print accuracy, time and number of dimensions
print("The program took %.3f seconds to complete. The accuracy on the test set is %.2f. The ngram representation had %i features." % (time.time() - start_time, clf.score(test_X, test_y), train_X.shape[1]))