Jak bigramy wpływają na chmury słów?

Masz już DTM oparty na bigramach – możesz go teraz zbadać i utworzyć nową chmurę słów. Nowy sposób tokenizacji wpływa nie tylko na macierze, ale też na wszelkie wizualizacje i modele zbudowane na ich podstawie.

Pamiętasz, że w chmurze słów dla chardonnay „Marvin" i „Gaye" były osobnymi terminami? Tokenizacja bigramowa łączy wszystkie kombinacje dwóch sąsiadujących słów. Sprawdź, co się stanie z chmurą słów w tym ćwiczeniu.

Ćwiczenie korzysta z funkcji str_subset z pakietu stringr. Pamiętaj, że inne kursy DataCamp omawiają wyrażenia regularne bardziej szczegółowo. Dla przypomnienia: wyrażenie regularne ^ dopasowuje początkową pozycję w bigrama z tego ćwiczenia.

Tweety o chardonnay zostały oczyszczone i zapisane w DTM o nazwie bigram_dtm.

Utwórz obiekt bigram_dtm_m, konwertując bigram_dtm na macierz.
Utwórz obiekt freq zawierający częstości słów, stosując funkcję colSums() na bigram_dtm_m.
Wyodrębnij wektor tekstowy kombinacji słów za pomocą names(freq) i przypisz wynik do zmiennej bi_words.
Przekaż bi_words do funkcji str_subset() ze wzorcem dopasowania "^marvin", aby wyświetlić wszystkie bigramy zaczynające się od „marvin".
Narysuj prostą chmurę słów za pomocą wordcloud(), przekazując do funkcji bi_words, freq oraz max.words = 15.

ćwiczenie

Jak bigramy wpływają na chmury słów?

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie