Utilisation des noms dans les fake news

Dans cet exercice, on vous fournit un dataframe headlines qui contient des titres d’articles, faux ou authentiques. Votre objectif est de générer deux nouvelles caractéristiques, num_propn et num_noun, qui indiquent respectivement le nombre de noms propres et le nombre d’autres noms présents dans la variable title de headlines.

Ensuite, nous allons calculer le nombre moyen de noms propres et d’autres noms utilisés dans les titres de fake news et dans les titres d’articles authentiques, puis comparer ces valeurs. S’il existe une différence marquée, il y a de fortes chances que l’utilisation des caractéristiques num_propn et num_noun dans les détecteurs de fake news améliore leurs performances.

Pour réaliser cette tâche, les fonctions proper_nouns et nouns que vous avez construites à l’exercice précédent sont déjà à votre disposition.

Cet exercice fait partie du cours

<cours>Feature Engineering pour le NLP en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

headlines[____] = headlines['title'].apply(____)

# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____

# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))

Modifier et exécuter le code