1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regular Expressions in R

Connected

Cvičení

Extrakce jmen s kontextem

Vraťme se k datové sadě o švýcarských politicích. Obsahuje dvě proměnné: articles – sbírku zpravodajských článků o švýcarské politice – a politicians – vektor s několika jmény švýcarských politiků.

Počty výskytů jednotlivých jmen už máš za sebou, ale nebylo by zajímavé nejen je počítat, ale také vidět, v jakém kontextu se tato jména objevují? Mohl/a by ses například podívat, zda se kontexty liší u političek a politiků. K tomu budeš potřebovat extrahovat text obklopující jména politiků.

Protože text obsahuje jak slovní znaky \\w, tak interpunkci [:punct:] – například tečky . nebo čárky , – budeš muset vytvořit vzor, který zachytí oba tyto typy znaků.

Pokyny

100 XP
  • Vezmi vektor politicians a spoj ho tak, aby vznikl „or pattern" (vzor s alternativami), stejně jako jsi to udělal/a ve 2. kapitole.
  • Vytvoř vlastní vzor v hranatých závorkách [], který zachytí jak slovní znaky, tak interpunkci.
  • Pomocí glue přidej nově vytvořený context jak před, tak za polit_pattern. Část \\s? říká, že za jménem politika může, ale nemusí následovat mezera.