TfidfVectorizer pro klasifikaci textu

Podobně jako v předchozím cvičení, kde jsi pracoval/a s řídkým vektorizátorem CountVectorizer, teď vytvoříš tf-idf vektory pro své dokumenty. Nastavíš TfidfVectorizer a prozkoumáš některé jeho vlastnosti.

V tomto cvičení využiješ pandas a sklearn spolu se stejnými DataFrames a Series X_train, y_train a X_test, y_test, které jsi vytvořil/a v předchozím cvičení.

Importuj TfidfVectorizer z sklearn.feature_extraction.text.
Vytvoř objekt TfidfVectorizer s názvem tfidf_vectorizer. Při tom zadej argumenty stop_words="english" a max_df=0.7.
Natrénuj vektorizátor na trénovacích datech a zároveň je transformuj.
Transformuj testovací data.
Vypiš prvních 10 příznaků objektu tfidf_vectorizer.
Vypiš prvních 5 vektorů trénovacích tf-idf dat pomocí slicování na atributu .A (nebo array) objektu tfidf_train.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení