Uso dei nomi nelle fake news
In questo esercizio ti viene fornito un dataframe headlines con titoli di notizie, veri o falsi. Il tuo compito è generare due nuove feature, num_propn e num_noun, che rappresentano rispettivamente il numero di nomi propri e di altri nomi contenuti nella feature title di headlines.
Poi calcoleremo il numero medio di nomi propri e di altri nomi usati nei titoli di fake news e di notizie reali, e confronteremo i valori. Se emerge una differenza significativa, è probabile che usare le feature num_propn e num_noun nei rilevatori di fake news migliori le prestazioni.
Per svolgere il compito, le funzioni proper_nouns e nouns che hai costruito nell’esercizio precedente sono già a tua disposizione.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
headlines[____] = headlines['title'].apply(____)
# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____
# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))