1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Macierze rzadkie

W lekcji wideo poznałeś/aś macierze rzadkie. Wraz ze wzrostem liczby dokumentów tekstowych i unikalnych słów macierze rzadkie mogą stać się prawdziwym wyzwaniem obliczeniowym. Tworzenie reprezentacji słów na podstawie tweetów bardzo łatwo prowadzi do macierzy rzadkich – wszystko za sprawą emotikonów, slangu, skrótowców i innych form języka używanych w mediach społecznościowych.

W tym ćwiczeniu przejdziesz przez kolejne kroki obliczania stopnia rzadkości zbioru rosyjskich tweetów. To mały przykład, który dobrze pokazuje, jak szybko analiza tekstu może przerodzić się w poważny problem obliczeniowy.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Użyj tokenizacji i usuń stop-słowa, aby znaleźć łączną liczbę unikalnych słów w zbiorze danych.