1. Learn
  2. /
  3. Courses
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

Exercise

Przygotowanie danych

Podczas wyborów prezydenckich w USA w 2016 roku rosyjskie boty tweetujące nieustannie rozpowszechniały treści polityczne skierowane zarówno do demokratów, jak i do republikanów. Otrzymujesz zbiór danych takich tweetów o nazwie russian_tweets. Twoim zadaniem jest sklasyfikowanie tych tweetów jako lewicowe (demokratyczne) lub prawicowe (republikańskie). Zanim zbudujesz model klasyfikacji, musisz oczyścić i przygotować tekst do modelowania.

Instructions

100 XP
  • Zakończ proces tokenizacji, przeprowadzając stemming tokenów.
  • Użyj funkcji cast_dtm(), aby utworzyć macierz dokumentów i terminów.
  • Zastosuj ważenie tfidf do macierzy dokumentów i terminów.
  • Wyświetl macierz.