1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

Co je to tf-idf?

Chceš vypočítat váhu tf-idf pro slovo "computer", které se v dokumentu složeném ze 100 slov vyskytuje pětkrát. Korpus obsahuje 200 dokumentů, přičemž slovo "computer" se objevuje ve 20 z nich. Tf-idf se vypočítá jako součin frekvence termu a inverzní frekvence dokumentu.

Frekvence termu = procentuální podíl daného slova ze všech tokenů v dokumentu Inverzní frekvence dokumentu = logaritmus podílu celkového počtu dokumentů v korpusu a počtu dokumentů obsahujících daný term

Která z následujících možností je správně?

Pokyny

50 XP

Možné odpovědi