Entraîner et tester le modèle de « fake news » avec TfidfVectorizer

Maintenant que vous avez évalué le modèle en utilisant le CountVectorizer, vous allez faire de même avec le TfidfVectorizer et un modèle Naive Bayes.

Les ensembles d’entraînement et de test ont été créés, et tfidf_vectorizer, tfidf_train et tfidf_test ont été calculés. De plus, MultinomialNB et metrics ont été importés depuis, respectivement, sklearn.naive_bayes et sklearn.

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>

Voir le cours

Instructions de l’exercice

Instanciez un classifieur MultinomialNB nommé nb_classifier.
Ajustez le classifieur aux données d’entraînement.
Calculez les étiquettes prédites pour les données de test.
Calculez et affichez le score de précision du classifieur.
Calculez la matrice de confusion. Comme dans l’exercice précédent, précisez l’argument nommé labels=['FAKE', 'REAL'] afin de rendre la matrice de confusion plus lisible.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a Multinomial Naive Bayes classifier: nb_classifier
nb_classifier = ____

# Fit the classifier to the training data
____

# Create the predicted tags: pred
pred = ____

# Calculate the accuracy score: score
score = ____
print(score)

# Calculate the confusion matrix: cm
cm = ____
print(cm)

Modifier et exécuter le code