Zelfstandig naamwoordgebruik in nepnieuws

In deze oefening heb je een dataframe headlines gekregen met nieuwsheadlines die nep of echt zijn. Je taak is om twee nieuwe features te maken, num_propn en num_noun, die het aantal eigennamen en andere zelfstandige naamwoorden in de feature title van headlines weergeven.

Vervolgens berekenen we het gemiddelde aantal eigennamen en andere zelfstandige naamwoorden in nep- en echte nieuwsheadlines en vergelijken we de waarden. Als er een opvallend verschil is, is de kans groot dat het gebruik van de features num_propn en num_noun in nepnieuwsdetectors de prestaties verbetert.

Om deze taak uit te voeren, zijn de functies proper_nouns en nouns die je in de vorige oefening hebt gebouwd al voor je beschikbaar gesteld.

Deze oefening maakt deel uit van de cursus

Feature Engineering voor NLP in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

headlines[____] = headlines['title'].apply(____)

# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____

# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))

Code bewerken en uitvoeren