Jak bigramy ovlivňují slovní mraky?

Teď, když máš bigramový DTM, můžeš ho prozkoumat a sestavit nový slovní mrak. Nová metoda tokenizace ovlivňuje nejen matice, ale i všechny vizualizace a modely na nich postavené.

Pamatuješ, jak byly „Marvin" a „Gaye" ve slovním mraku chardonnay dva oddělené výrazy? Bigramová tokenizace zachytí všechny kombinace dvou slov. Sleduj, co se v tomto cvičení se slovním mrakem stane.

Toto cvičení využívá str_subset z balíčku stringr. Měj na paměti, že regulárními výrazy se podrobněji zabývají jiné kurzy na DataCampu. Připomínáme, že regulární výraz ^ odpovídá počáteční pozici v rámci bigramů tohoto cvičení.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Tweety o chardonnay byly vyčištěny a uspořádány do DTM s názvem bigram_dtm.

Vytvoř bigram_dtm_m převodem bigram_dtm na matici.
Vytvoř objekt freq obsahující frekvence slov pomocí funkce colSums() aplikované na bigram_dtm_m.
Extrahuj znakový vektor kombinací slov pomocí names(freq) a výsledek ulož do bi_words.
Předej bi_words do str_subset() se vzorem "^marvin" a prohlédni si všechny bigramy začínající na "marvin".
Vykresli jednoduchý slovní mrak pomocí wordcloud() s argumenty bi_words, freq a max.words = 15.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create bigram_dtm_m
___ <- ___(___)

# Create freq
___ <- ___(___)

# Create bi_words
___ <- ___(___)

# Examine part of bi_words
___(___, ___)

# Plot a word cloud
___(___, ___, ___)

Upravit a spustit kód