1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Tworzenie korpusu

Masz do dyspozycji obiekt typu tibble o nazwie russian_tweets, zawierający około 20 000 tweetów wygenerowanych automatycznie przez boty podczas kampanii wyborczej w USA w 2016 roku. Chcesz przeprowadzić analizę tekstu i po zapoznaniu się z dostępnymi opcjami dochodzisz do wniosku, że pakiet tm oferuje najbardziej przystępne rozwiązanie. Zanim jednak przystąpisz do analizy, musisz utworzyć korpus i dołączyć do niego potencjalnie przydatne metadane.

Pamiętaj, że są to prawdziwe dane z Twittera – istnieje więc ryzyko, że mogą zawierać wulgaryzmy lub inne treści uznawane za obraźliwe (dotyczy to tego ćwiczenia oraz kolejnych ćwiczeń korzystających z rzeczywistych danych z Twittera).

Instrukcje

100 XP
  • Utwórz korpus, korzystając z kolumny content obiektu russian_tweets.
  • Dołącz kolumny following i followers jako metadane do obiektu tweet_corpus.
  • Wyświetl pierwsze wiersze tabeli metadanych.