Uso dei nomi nelle fake news

In questo esercizio ti viene fornito un dataframe headlines con titoli di notizie, veri o falsi. Il tuo compito è generare due nuove feature, num_propn e num_noun, che rappresentano rispettivamente il numero di nomi propri e di altri nomi contenuti nella feature title di headlines.

Poi calcoleremo il numero medio di nomi propri e di altri nomi usati nei titoli di fake news e di notizie reali, e confronteremo i valori. Se emerge una differenza significativa, è probabile che usare le feature num_propn e num_noun nei rilevatori di fake news migliori le prestazioni.

Per svolgere il compito, le funzioni proper_nouns e nouns che hai costruito nell’esercizio precedente sono già a tua disposizione.

Questo esercizio fa parte del corso

Feature Engineering per NLP in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

headlines[____] = headlines['title'].apply(____)

# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____

# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))

Modifica ed esegui il codice