1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza danych z mediów społecznościowych w R

Connected

ćwiczenie

Tworzenie korpusu i konwersja na małe litery

Korpus to lista dokumentów tekstowych. Aby ułatwić kolejne kroki przetwarzania tekstu, musisz przekonwertować treść tweetów na korpus.

Podczas analizy tekstu ważne jest, żeby ten sam wyraz nie był traktowany jako dwa różne słowa tylko dlatego, że w jednym miejscu jest pisany wielką literą, a w innym – małą. Dlatego należy zamienić cały tekst na małe litery.

W tym ćwiczeniu utworzysz korpus tekstowy i przekonwertujesz wszystkie znaki na małe litery.

Wyczyszczony tekst z poprzedniego ćwiczenia został wczytany jako twts_gsub.

Biblioteka tm jest już wczytana dla tego ćwiczenia.

Instrukcje 1/2

undefined XP
    1
    2
  • Przekonwertuj tekst z ramki danych twt_gsub na korpus tekstowy.