1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering for NLP in Python

Connected

cvičení

BoW vektory pro filmové recenze

V tomto cvičení máš k dispozici dvě pandas Series, X_train a X_test, které obsahují filmové recenze — trénovací a testovací data. Tvým úkolem je recenze předzpracovat a pomocí CountVectorizer z nich vytvořit BoW vektory pro obě sady.

Jakmile budeme mít BoW maticové reprezentace X_train_bow a X_test_bow, budeme připraveni na nich natrénovat model strojového učení a provést analýzu sentimentu.

Pokyny

100 XP
  • Importuj CountVectorizer z knihovny sklearn.
  • Vytvoř instanci CountVectorizer s názvem vectorizer. Zajisti, aby se všechna slova převáděla na malá písmena a odstraňovala se english stop slova.
  • Pomocí X_train natrénuj vectorizer a následně ho použij k transformaci X_train — výsledkem bude sada BoW vektorů X_train_bow.
  • Transformuj X_test pomocí vectorizer a vytvoř tak sadu BoW vektorů X_test_bow.