1. 学ぶ
  2. /
  3. コース
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

演習

Typowe funkcje czyszczące z pakietu tm

Teraz, gdy znasz już dwa sposoby tworzenia korpusu, możesz skupić się na czyszczeniu i wstępnym przetwarzaniu tekstu. Zaczniesz od oczyszczenia krótkiego fragmentu tekstu, a następnie przejdziesz do pracy z większymi korpusami.

W metodzie bag-of-words czyszczenie tekstu pomaga agregować terminy. Na przykład słowa „miner", „mining" i „mine" warto traktować jako jeden termin. Konkretne kroki przetwarzania wstępnego zależą od projektu – słownictwo używane na Twitterze znacznie różni się od języka dokumentów prawnych, więc i proces czyszczenia może wyglądać zupełnie inaczej.

Do najczęściej stosowanych funkcji przetwarzania wstępnego należą:

  • tolower(): zamienia wszystkie znaki na małe litery
  • removePunctuation(): usuwa wszystkie znaki interpunkcyjne
  • removeNumbers(): usuwa liczby
  • stripWhitespace(): usuwa nadmiarowe białe znaki

Funkcja tolower() pochodzi z podstawowego R, natomiast pozostałe trzy funkcje są dostępne w pakiecie tm. W kolejnych ćwiczeniach pakiety tm i qdap będą wczytywane automatycznie, gdy tylko będą potrzebne. Za każdym razem, gdy pojawi się nowy pakiet, najpierw samodzielnie go wczytasz.

W skrypcie znajdziesz zmienną text zawierającą przykładowe zdanie.

指示

100 XP

Zastosuj każdą z poniższych funkcji do zmiennej text, wyświetlając wyniki w konsoli:

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`