1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do zpracování přirozeného jazyka v Pythonu

Connected

cvičení

TfidfVectorizer pro klasifikaci textu

Podobně jako v předchozím cvičení, kde jsi pracoval/a s řídkým vektorizátorem CountVectorizer, teď vytvoříš tf-idf vektory pro své dokumenty. Nastavíš TfidfVectorizer a prozkoumáš některé jeho vlastnosti.

V tomto cvičení využiješ pandas a sklearn spolu se stejnými DataFrames a Series X_train, y_train a X_test, y_test, které jsi vytvořil/a v předchozím cvičení.

Pokyny

100 XP
  • Importuj TfidfVectorizer z sklearn.feature_extraction.text.
  • Vytvoř objekt TfidfVectorizer s názvem tfidf_vectorizer. Při tom zadej argumenty stop_words="english" a max_df=0.7.
  • Natrénuj vektorizátor na trénovacích datech a zároveň je transformuj.
  • Transformuj testovací data.
  • Vypiš prvních 10 příznaků objektu tfidf_vectorizer.
  • Vypiš prvních 5 vektorů trénovacích tf-idf dat pomocí slicování na atributu .A (nebo array) objektu tfidf_train.