1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Jak bigramy wpływają na chmury słów?

Masz już DTM oparty na bigramach – możesz go teraz zbadać i utworzyć nową chmurę słów. Nowy sposób tokenizacji wpływa nie tylko na macierze, ale też na wszelkie wizualizacje i modele zbudowane na ich podstawie.

Pamiętasz, że w chmurze słów dla chardonnay „Marvin" i „Gaye" były osobnymi terminami? Tokenizacja bigramowa łączy wszystkie kombinacje dwóch sąsiadujących słów. Sprawdź, co się stanie z chmurą słów w tym ćwiczeniu.

Ćwiczenie korzysta z funkcji str_subset z pakietu stringr. Pamiętaj, że inne kursy DataCamp omawiają wyrażenia regularne bardziej szczegółowo. Dla przypomnienia: wyrażenie regularne ^ dopasowuje początkową pozycję w bigrama z tego ćwiczenia.

Instrukcje

100 XP

Tweety o chardonnay zostały oczyszczone i zapisane w DTM o nazwie bigram_dtm.

  • Utwórz obiekt bigram_dtm_m, konwertując bigram_dtm na macierz.
  • Utwórz obiekt freq zawierający częstości słów, stosując funkcję colSums() na bigram_dtm_m.
  • Wyodrębnij wektor tekstowy kombinacji słów za pomocą names(freq) i przypisz wynik do zmiennej bi_words.
  • Przekaż bi_words do funkcji str_subset() ze wzorcem dopasowania "^marvin", aby wyświetlić wszystkie bigramy zaczynające się od „marvin".
  • Narysuj prostą chmurę słów za pomocą wordcloud(), przekazując do funkcji bi_words, freq oraz max.words = 15.