1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Podstatná jména ve fake news

V tomto cvičení máš k dispozici dataframe headlines s novinovými titulky, které jsou označeny jako falešné nebo pravé. Tvým úkolem je vytvořit dva nové příznaky: num_propn a num_noun, které reprezentují počet vlastních jmen a ostatních podstatných jmen obsažených v příznaku title dataframu headlines.

Dále vypočítáme průměrný počet vlastních jmen a ostatních podstatných jmen použitých ve falešných a pravých titulcích a porovnáme výsledky. Pokud bude rozdíl výrazný, je dobrá šance, že přidání příznaků num_propn a num_noun do detektoru fake news zlepší jeho výkon.

Funkce proper_nouns a nouns, které jsi sestavil/a v předchozím cvičení, jsou ti k dispozici.

Instrukce 1/2

undefined XP
  • 1
    • Vytvoř nový příznak num_propn aplikováním funkce proper_nouns na headlines['title'].
    • Filtruj headlines a pomocí metody mean vypočítej průměrný počet vlastních jmen ve falešných zprávách.
  • 2
    • Zopakuj stejný postup pro ostatní podstatná jména: vytvoř příznak 'num_noun' pomocí funkce nouns a vypočítej průměrný počet ostatních podstatných jmen.