CountVectorizer pro klasifikaci textu

Je čas začít budovat klasifikátor textu! Data jsou načtena do DataFrame s názvem df. Prozkoumej ho v IPython Shellu a zjisti, které sloupce můžeš využít. Zvláště užitečná je metoda .head().

V tomto cvičení použiješ pandas spolu se scikit-learn k vytvoření řídkého vektorizátoru textu, který poslouží k trénování a testování jednoduchého modelu se supervised learningem. Nejdřív nastavíš CountVectorizer a prozkoumáš některé jeho funkce.

Importuj CountVectorizer z sklearn.feature_extraction.text a train_test_split z sklearn.model_selection.
Vytvoř sérii y pro labely tak, že přiřadíš atribut .label DataFrame df do proměnné y.
Pomocí df["text"] (příznaky) a y (labely) vytvoř trénovací a testovací sadu funkcí train_test_split(). Nastav test_size na 0.33 a random_state na 53.
Vytvoř objekt CountVectorizer s názvem count_vectorizer. Nezapomeň zadat klíčový argument stop_words="english", aby byly stop words odstraněny.
Natrénuj a transformuj trénovací data X_train pomocí metody .fit_transform() svého objektu CountVectorizer. Totéž proveď s testovacími daty X_test, tentokrát však pomocí metody .transform().
Vypiš prvních 10 příznaků count_vectorizer pomocí jeho metody .get_feature_names().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení