1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Model BoW pro filmové slogany

V tomto cvičení máš k dispozici corpus s více než 7 000 filmovými slogany. Tvým úkolem je vytvořit reprezentaci bag of words jako bow_matrix pro tyto slogany. V tomto cvičení přeskočíme krok předzpracování textu a bow_matrix vytvoříme rovnou.

Podíváme se také na tvar výsledné bow_matrix. Prvních pět sloganů z corpus je vypsáno v konzoli, abys je mohl/a prozkoumat.

Pokyny

100 XP
  • Importuj třídu CountVectorizer z knihovny sklearn.
  • Vytvoř instanci objektu CountVectorizer a pojmenuj ji vectorizer.
  • Pomocí metody fit_transform() vygeneruj bow_matrix pro corpus.