1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

CountVectorizer pro klasifikaci textu

Je čas začít budovat klasifikátor textu! Data jsou načtena do DataFrame s názvem df. Prozkoumej ho v IPython Shellu a zjisti, které sloupce můžeš využít. Zvláště užitečná je metoda .head().

V tomto cvičení použiješ pandas spolu se scikit-learn k vytvoření řídkého vektorizátoru textu, který poslouží k trénování a testování jednoduchého modelu se supervised learningem. Nejdřív nastavíš CountVectorizer a prozkoumáš některé jeho funkce.

Pokyny

100 XP
  • Importuj CountVectorizer z sklearn.feature_extraction.text a train_test_split z sklearn.model_selection.
  • Vytvoř sérii y pro labely tak, že přiřadíš atribut .label DataFrame df do proměnné y.
  • Pomocí df["text"] (příznaky) a y (labely) vytvoř trénovací a testovací sadu funkcí train_test_split(). Nastav test_size na 0.33 a random_state na 53.
  • Vytvoř objekt CountVectorizer s názvem count_vectorizer. Nezapomeň zadat klíčový argument stop_words="english", aby byly stop words odstraněny.
  • Natrénuj a transformuj trénovací data X_train pomocí metody .fit_transform() svého objektu CountVectorizer. Totéž proveď s testovacími daty X_test, tentokrát však pomocí metody .transform().
  • Vypiš prvních 10 příznaků count_vectorizer pomocí jeho metody .get_feature_names().