Základní čisticí funkce z balíčku tm

Teď, když víš, jak vytvořit korpus dvěma různými způsoby, se můžeš soustředit na čištění a předzpracování textu. Nejdřív si vyzkoušíš čištění na malém úseku textu a potom přejdeme k větším korpusům.

Při metodě bag of words čištění pomáhá seskupovat příbuzné výrazy. Může dávat smysl, aby slova jako „miner", „mining" a „mine" byla považována za jeden výraz. Konkrétní kroky předzpracování se liší podle projektu – výrazy používané v tweetech jsou úplně jiné než ty v právních dokumentech, a proto se může lišit i způsob čištění.

Mezi běžné funkce pro předzpracování patří:

tolower(): převede všechny znaky na malá písmena
removePunctuation(): odstraní všechna interpunkční znaménka
removeNumbers(): odstraní čísla
stripWhitespace(): odstraní nadbytečné mezery

tolower() je součástí základního R, zatímco zbývající tři funkce pocházejí z balíčku tm. V dalších cvičeních za tebe balíčky tm a qdap načteme automaticky, kdykoli budou potřeba. Pokaždé, když představíme nový balíček, ho poprvé načteš sám/sama.

V skriptu najdeš proměnnou text obsahující větu.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Aplikuj každou z následujících funkcí na proměnnou text a výsledky jednoduše vypiš do konzole:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create the object: text
text <- "She woke up at       6 A.M. It\'s so early!  She was only 10% awake and began drinking coffee in front of her computer."

# Make lowercase
___

# Remove punctuation
____

# Remove numbers
___

# Remove whitespace
___

Upravit a spustit kód