1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Stop slova a word cloudy

Teď, když přemýšlíš stylem text miningu a v ruce máš sklenici chardonnay, je čas jít trochu hlouběji. V předchozím word cloudu dominovalo slovo „chardonnay" natolik, že ostatní zajímavé poznatky zanikly.

Přidáme „chardonnay" mezi stop slova a zjistíme, která další slova jsou běžná, ale dosud přehlušená.

V tvém pracovním prostředí je už připravená vyčištěná verze tweetů o chardonnay. Teď odebereme některé neinformativní výrazy. V tomto cvičení ti funkce content() ukáže konkrétní tweet pro porovnání. Nezapomeň použít dvojité závorky pro indexování listu korpusu.

Pokyny

100 XP
  • Aplikuj content() na 24. dokument v chardonnay_corp.
  • Přidej "chardonnay" k anglickým stop slovům a výsledek ulož do stops.
  • Prohlédni si posledních šest slov v stops.
  • Vytvoř cleaned_chardonnay_corp pomocí tm_map() – předej jí chardonnay_corp, funkci removeWords() a stop slova stops.
  • Znovu zobraz obsah (content) 24. tweetu a porovnej výsledky.