1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

Analýza dimenzionality a předzpracování dat

V tomto cvičení máš k dispozici lem_corpus, který obsahuje předzpracované verze filmových taglinů z předchozího cvičení. Tagliny byly převedeny na malá písmena, lematizovány a odstraněna z nich byla stopslova.

Tvým úkolem je vytvořit reprezentaci bag of words bow_lem_matrix pro tyto lematizované tagliny a porovnat její tvar s tvarem bow_matrix z předchozího cvičení. Prvních pět lematizovaných taglinů z lem_corpus ti bylo vypsáno do konzole.

Pokyny

100 XP
  • Importuj třídu CountVectorizer z sklearn.
  • Vytvoř instanci objektu CountVectorizer a pojmenuj ji vectorizer.
  • Pomocí fit_transform() vygeneruj bow_lem_matrix pro lem_corpus.