1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Powtórka z TM (I)

W kursie Text Mining: Bag of Words poznałeś pojęcie korpusu jako zbioru tekstów oraz funkcje do wstępnego przetwarzania tekstu. Warto je sobie przypomnieć – analiza sentymentu jest częścią text miningu, więc krótka powtórka się przyda.

  • Zamień wektor znaków na źródło tekstowe za pomocą VectorSource().
  • Przekształć źródło tekstowe w korpus za pomocą VCorpus().
  • Usuń niechciane znaki z korpusu, korzystając z funkcji czyszczących, takich jak removePunctuation() i stripWhitespace() z pakietu tm oraz replace_abbreviation() z pakietu qdap.

W tym ćwiczeniu przygotowano niestandardową funkcję clean_corpus(), która łączy standardowe kroki przetwarzania tekstu w jedną wygodną funkcję.

clean_corpus() przyjmuje wynik działania VCorpus() i stosuje funkcje czyszczące. Na przykład:

processed_corpus <- clean_corpus(my_corpus)

Instrukcje

100 XP

W sesji R dostępny jest wektor tekstowy tm_define zawierający dwa krótkie dokumenty oraz funkcja clean_corpus().

  • Utwórz obiekt tm_vector, stosując VectorSource() na tm_define.
  • Utwórz tm_corpus, wywołując VCorpus() na tm_vector.
  • Użyj content(), aby sprawdzić zawartość pierwszego dokumentu w tm_corpus.
    • Dokumenty w korpusie są dostępne za pomocą składni listowej – użyj podwójnych nawiasów kwadratowych, np. [[1]].
  • Oczyść tekst korpusu, stosując niestandardową funkcję clean_corpus() na tm_corpus. Nowy obiekt nazwij tm_clean.
  • Sprawdź ponownie pierwszy dokument obiektu tm_clean, aby zobaczyć, jak tekst zmienił się po zastosowaniu clean_corpus().