Uso de sustantivos en noticias falsas

En este ejercicio, tienes un dataframe headlines que contiene titulares de noticias que pueden ser falsas o reales. Tu tarea es generar dos nuevas características, num_propn y num_noun, que representen el número de nombres propios y de otros sustantivos contenidos en la característica title de headlines.

A continuación, vamos a calcular el número medio de nombres propios y de otros sustantivos usados en titulares de noticias falsas y reales y compararemos los valores. Si hay una diferencia notable, es muy probable que usar las características num_propn y num_noun en detectores de noticias falsas mejore su rendimiento.

Para completar esta tarea, las funciones proper_nouns y nouns que creaste en el ejercicio anterior ya están disponibles para ti.

Este ejercicio forma parte del curso

Ingeniería de características para NLP en Python

Ver curso

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

headlines[____] = headlines['title'].apply(____)

# Compute mean of proper nouns
real_propn = headlines[headlines['label'] == 'REAL']['num_propn'].mean()
fake_propn = headlines[headlines['label'] == 'FAKE']['num_propn'].____

# Print results
print("Mean no. of proper nouns in real and fake headlines are %.2f and %.2f respectively"%(real_propn, fake_propn))

Editar y ejecutar código