1. Learn
  2. /
  3. Cursuri
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

exercițiu

Przekształć wektor w obiekt VCorpus (1)

W poprzednim ćwiczeniu wczytano dane tekstowe do wektora o nazwie coffee_tweets. Kolejnym krokiem jest przekształcenie tego wektora w korpus. Jak wyjaśniono w filmie, korpus to zbiór dokumentów – warto jednak wiedzieć, że w środowisku pakietu tm R traktuje go jako osobny typ danych.

Istnieją dwa rodzaje korpusu: korpus trwały, PCorpus, oraz korpus ulotny, VCorpus. Różnią się one sposobem przechowywania dokumentów na komputerze. W tym kursie będziemy używać korpusu ulotnego, który przechowywany jest w pamięci RAM, a nie zapisywany na dysku – dzięki temu oszczędzamy zasoby.

Aby utworzyć korpus ulotny, R musi zinterpretować każdy element wektora coffee_tweets jako osobny dokument. Pakiet tm udostępnia w tym celu tzw. funkcje Source. W tym ćwiczeniu skorzystamy z funkcji VectorSource(), ponieważ dane tekstowe są przechowywane w wektorze. Wynik działania tej funkcji nosi nazwę obiektu Source. Do dzieła!

Instrucțiuni

100 XP
  • Załaduj pakiet tm.
  • Utwórz obiekt Source z wektora coffee_tweets. Nadaj nowemu obiektowi nazwę coffee_source.