Uso de substantivos em fake news
Neste exercício, você recebeu um dataframe headlines que contém manchetes de notícias que são falsas ou reais. Sua tarefa é gerar duas novas variáveis num_propn e num_noun, que representam a quantidade de nomes próprios e de outros substantivos contidos na coluna title de headlines.
Em seguida, vamos calcular a média de nomes próprios e de outros substantivos usados em manchetes falsas e reais e comparar os valores. Se houver uma diferença significativa, há uma boa chance de que usar as variáveis num_propn e num_noun em detectores de fake news melhore o desempenho.
Para concluir essa tarefa, as funções proper_nouns e nouns que você criou no exercício anterior já estão disponíveis para você.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
headlines[____] = headlines['title'].apply(____)
# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____
# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))