1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Základní čisticí funkce z balíčku tm

Teď, když víš, jak vytvořit korpus dvěma různými způsoby, se můžeš soustředit na čištění a předzpracování textu. Nejdřív si vyzkoušíš čištění na malém úseku textu a potom přejdeme k větším korpusům.

Při metodě bag of words čištění pomáhá seskupovat příbuzné výrazy. Může dávat smysl, aby slova jako „miner", „mining" a „mine" byla považována za jeden výraz. Konkrétní kroky předzpracování se liší podle projektu – výrazy používané v tweetech jsou úplně jiné než ty v právních dokumentech, a proto se může lišit i způsob čištění.

Mezi běžné funkce pro předzpracování patří:

  • tolower(): převede všechny znaky na malá písmena
  • removePunctuation(): odstraní všechna interpunkční znaménka
  • removeNumbers(): odstraní čísla
  • stripWhitespace(): odstraní nadbytečné mezery

tolower() je součástí základního R, zatímco zbývající tři funkce pocházejí z balíčku tm. V dalších cvičeních za tebe balíčky tm a qdap načteme automaticky, kdykoli budou potřeba. Pokaždé, když představíme nový balíček, ho poprvé načteš sám/sama.

V skriptu najdeš proměnnou text obsahující větu.

Pokyny

100 XP

Aplikuj každou z následujících funkcí na proměnnou text a výsledky jednoduše vypiš do konzole:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`