Uso de sustantivos en noticias falsas
En este ejercicio, tienes un dataframe headlines que contiene titulares de noticias que pueden ser falsas o reales. Tu tarea es generar dos nuevas características, num_propn y num_noun, que representen el número de nombres propios y de otros sustantivos contenidos en la característica title de headlines.
A continuación, vamos a calcular el número medio de nombres propios y de otros sustantivos usados en titulares de noticias falsas y reales y compararemos los valores. Si hay una diferencia notable, es muy probable que usar las características num_propn y num_noun en detectores de noticias falsas mejore su rendimiento.
Para completar esta tarea, las funciones proper_nouns y nouns que creaste en el ejercicio anterior ya están disponibles para ti.
Este ejercicio forma parte del curso
Ingeniería de características para NLP en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
headlines[____] = headlines['title'].apply(____)
# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____
# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))