Typowe funkcje czyszczące z pakietu tm

Teraz, gdy znasz już dwa sposoby tworzenia korpusu, możesz skupić się na czyszczeniu i wstępnym przetwarzaniu tekstu. Zaczniesz od oczyszczenia krótkiego fragmentu tekstu, a następnie przejdziesz do pracy z większymi korpusami.

W metodzie bag-of-words czyszczenie tekstu pomaga agregować terminy. Na przykład słowa „miner", „mining" i „mine" warto traktować jako jeden termin. Konkretne kroki przetwarzania wstępnego zależą od projektu – słownictwo używane na Twitterze znacznie różni się od języka dokumentów prawnych, więc i proces czyszczenia może wyglądać zupełnie inaczej.

Do najczęściej stosowanych funkcji przetwarzania wstępnego należą:

tolower(): zamienia wszystkie znaki na małe litery
removePunctuation(): usuwa wszystkie znaki interpunkcyjne
removeNumbers(): usuwa liczby
stripWhitespace(): usuwa nadmiarowe białe znaki

Funkcja tolower() pochodzi z podstawowego R, natomiast pozostałe trzy funkcje są dostępne w pakiecie tm. W kolejnych ćwiczeniach pakiety tm i qdap będą wczytywane automatycznie, gdy tylko będą potrzebne. Za każdym razem, gdy pojawi się nowy pakiet, najpierw samodzielnie go wczytasz.

W skrypcie znajdziesz zmienną text zawierającą przykładowe zdanie.

Zastosuj każdą z poniższych funkcji do zmiennej text, wyświetlając wyniki w konsoli:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

演習

Typowe funkcje czyszczące z pakietu tm

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習