Het "fake news"-model trainen en testen met TfidfVectorizer
Nu je het model hebt geëvalueerd met de CountVectorizer, ga je hetzelfde doen met de TfidfVectorizer in combinatie met een Naive Bayes-model.
De train- en testsets zijn al aangemaakt, en tfidf_vectorizer, tfidf_train en tfidf_test zijn berekend. Daarnaast zijn MultinomialNB en metrics geïmporteerd uit respectievelijk sklearn.naive_bayes en sklearn.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Instantieer een
MultinomialNB-classifier met de naamnb_classifier. - Train de classifier op de trainingsdata.
- Bereken de voorspelde labels voor de testdata.
- Bereken en print de nauwkeurigheid van de classifier.
- Bereken de verwarringsmatrix. Net als in de vorige oefening, geef het keywordargument
labels=['FAKE', 'REAL']mee zodat de resulterende verwarringsmatrix makkelijker te lezen is.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a Multinomial Naive Bayes classifier: nb_classifier
nb_classifier = ____
# Fit the classifier to the training data
____
# Create the predicted tags: pred
pred = ____
# Calculate the accuracy score: score
score = ____
print(score)
# Calculate the confusion matrix: cm
cm = ____
print(cm)