1. Learn
  2. /
  3. Courses
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

Exercise

Przekształcenie wektora w obiekt VCorpus (2)

Teraz, gdy przekształciliśmy wektor w obiekt Source, przekazujemy go do kolejnej funkcji z pakietu tm – VCorpus() – aby utworzyć nasz ulotny korpus. Proste, prawda?

Obiekt VCorpus to zagnieżdżona lista lub lista list. Pod każdym indeksem obiektu VCorpus znajduje się obiekt PlainTextDocument, który jest listą zawierającą właściwą treść tekstową (content) oraz odpowiadające jej metadane (meta). Warto zwizualizować obiekt VCorpus, aby lepiej zrozumieć jego strukturę.

Aby przejrzeć pojedynczy dokument (10.), użyj indeksowania z podwójnymi nawiasami kwadratowymi.

coffee_corpus[[10]]

Aby wyświetlić właściwy tekst, indeksuj listę dwukrotnie. Aby uzyskać dostęp do metadanych dokumentu, takich jak znacznik czasu, zmień [1] na [2]. Innym sposobem na wyświetlenie czystego tekstu jest funkcja content(), która nie wymaga drugiego zestawu nawiasów.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Instructions

100 XP
  • Wywołaj funkcję VCorpus() na obiekcie coffee_source, aby utworzyć coffee_corpus.
  • Sprawdź, czy coffee_corpus jest obiektem VCorpus, wypisując go w konsoli.
  • Wypisz 15. element coffee_corpus w konsoli, aby upewnić się, że jest to PlainTextDocument zawierający treść i metadane 15. tweeta. Użyj indeksowania z podwójnymi nawiasami kwadratowymi.
  • Wypisz zawartość 15. tweeta z coffee_corpus. Użyj podwójnych nawiasów, aby wybrać odpowiedni tweet, a następnie pojedynczych nawiasów, aby wyodrębnić jego treść.
  • Wypisz wynik funkcji content() dla 10. tweeta z coffee_corpus.