1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Tworzenie obiektu tibble z korpusu

Aby dokładniej zbadać korpus danych o ropie naftowej otrzymany od współpracownika, postanowiłeś(-aś) stworzyć potok przetwarzania tekstu zawartego w dokumentach. Zamiast korzystać z pakietu tm, zdecydujesz się przekształcić korpus w obiekt tibble – dzięki temu będziesz mógł(-a) użyć już znanych ci funkcji: unnest_tokens(), count() i anti_join(). Korpus crude zawiera zarówno metadane, jak i treść każdego dokumentu.

Instrukcje

100 XP
  • Przekształć korpus w obiekt tibble.
  • Użyj names, aby wyświetlić nazwy kolumn.
  • Podziel tekst na tokeny (według słów), zlicz je i usuń stop words z kolumny text obiektu crude_tibble.