1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Utwórz porządny tibble z tekstem!

Skoro zapoznałeś się już z zasadami tidy data, ten kod pomoże ci zorganizować dane w tibble, dzięki czemu będziesz mógł pracować w środowisku tidyverse!

Wcześniej nauczyłeś się, że zastosowanie tidy() na obiekcie TermDocumentMatrix() przekształca TDM do postaci tibble. W tym ćwiczeniu stworzysz dane słowne bezpośrednio z kolumny recenzji o nazwie comments.

Na początku użyj funkcji unnest_tokens(), aby zamienić tekst na małe litery i podzielić recenzje na pojedyncze słowa (tokeny).

Czasem przydaje się zachowanie oryginalnej kolejności słów w każdej grupie korpusu. Możesz to zrobić za pomocą funkcji mutate(). Wewnątrz mutate() użyj seq_along(), aby utworzyć sekwencję liczb od 1 do długości obiektu. Dzięki temu zachowasz kolejność słów taką, jak w oryginalnym tekście.

W pakiecie tm do usuwania słów stopu używa się funkcji removeWords(). W tidyverse najpierw musisz załadować leksykon słów stopu, a następnie zastosować anti_join() między ramką danych tidy text a listą słów stopu.

Instrukcje

100 XP
  • Utwórz tidy_reviews, przekazując potokiem (%>%) oryginalny obiekt z recenzjami bos_reviews do funkcji unnest_tokens(). Przekaż nową nazwę kolumny, word, i wskaż kolumnę comments. Pamiętaj, że w tidyverse nie potrzebujesz $ ani cudzysłowów.
  • Utwórz nową zmienną w stylu tidy! Nadpisz tidy_reviews, przekazując tidy_reviews potokiem do group_by z kolumną id. Następnie znów użyj %>% i przekaż wynik do funkcji mutate(). Wewnątrz mutate utwórz nową zmienną original_word_order równą seq_along(word).
  • Wydrukuj tibble tidy_reviews.
  • Załaduj gotowy leksykon słów stopu „SMART" do sesji R za pomocą data("stop_words").
  • Nadpisz tidy_reviews, przekazując oryginalny tidy_reviews potokiem (%>%) do funkcji anti_join(). Wewnątrz anti_join() przekaż gotowy leksykon stop_words.