Powtórka z TM (I)

W kursie Text Mining: Bag of Words poznałeś pojęcie korpusu jako zbioru tekstów oraz funkcje do wstępnego przetwarzania tekstu. Warto je sobie przypomnieć – analiza sentymentu jest częścią text miningu, więc krótka powtórka się przyda.

Zamień wektor znaków na źródło tekstowe za pomocą VectorSource().
Przekształć źródło tekstowe w korpus za pomocą VCorpus().
Usuń niechciane znaki z korpusu, korzystając z funkcji czyszczących, takich jak removePunctuation() i stripWhitespace() z pakietu tm oraz replace_abbreviation() z pakietu qdap.

W tym ćwiczeniu przygotowano niestandardową funkcję clean_corpus(), która łączy standardowe kroki przetwarzania tekstu w jedną wygodną funkcję.

clean_corpus() przyjmuje wynik działania VCorpus() i stosuje funkcje czyszczące. Na przykład:

processed_corpus <- clean_corpus(my_corpus)

W sesji R dostępny jest wektor tekstowy tm_define zawierający dwa krótkie dokumenty oraz funkcja clean_corpus().

Utwórz obiekt tm_vector, stosując VectorSource() na tm_define.
Utwórz tm_corpus, wywołując VCorpus() na tm_vector.
Użyj content(), aby sprawdzić zawartość pierwszego dokumentu w tm_corpus.
- Dokumenty w korpusie są dostępne za pomocą składni listowej – użyj podwójnych nawiasów kwadratowych, np. [[1]].
Oczyść tekst korpusu, stosując niestandardową funkcję clean_corpus() na tm_corpus. Nowy obiekt nazwij tm_clean.
Sprawdź ponownie pierwszy dokument obiektu tm_clean, aby zobaczyć, jak tekst zmienił się po zastosowaniu clean_corpus().

ćwiczenie

Powtórka z TM (I)

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie