1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Unsupervised Learning in Python

Connected

cvičení

Pole četností slov pomocí tf-idf

V tomto cvičení vytvoříš pole četností slov metodou tf-idf pro ukázkovou kolekci dokumentů. Použij k tomu TfidfVectorizer ze sklearn. Ten transformuje seznam dokumentů na pole četností slov, které vrátí jako csr_matrix. Stejně jako ostatní objekty sklearn má metody fit() a transform().

Máš k dispozici seznam documents s ukázkovými dokumenty o domácích zvířatech.

Pokyny

100 XP
  • Importuj TfidfVectorizer z sklearn.feature_extraction.text.
  • Vytvoř instanci TfidfVectorizer a pojmenuj ji tfidf.
  • Aplikuj metodu .fit_transform() objektu tfidf na documents a výsledek ulož do csr_mat. Jde o pole četností slov ve formátu csr_matrix.
  • Prozkoumej csr_mat zavoláním metody .toarray() a výsledek vypiš. Tento krok je už za tebe hotový.
  • Sloupce pole odpovídají jednotlivým slovům. Získej seznam slov zavoláním metody .get_feature_names_out() objektu tfidf a výsledek ulož do words.