Zelfstandig naamwoordgebruik in nepnieuws
In deze oefening heb je een dataframe headlines gekregen met nieuwsheadlines die nep of echt zijn. Je taak is om twee nieuwe features te maken, num_propn en num_noun, die het aantal eigennamen en andere zelfstandige naamwoorden in de feature title van headlines weergeven.
Vervolgens berekenen we het gemiddelde aantal eigennamen en andere zelfstandige naamwoorden in nep- en echte nieuwsheadlines en vergelijken we de waarden. Als er een opvallend verschil is, is de kans groot dat het gebruik van de features num_propn en num_noun in nepnieuwsdetectors de prestaties verbetert.
Om deze taak uit te voeren, zijn de functies proper_nouns en nouns die je in de vorige oefening hebt gebouwd al voor je beschikbaar gesteld.
Deze oefening maakt deel uit van de cursus
Feature Engineering voor NLP in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
headlines[____] = headlines['title'].apply(____)
# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____
# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))