1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

ćwiczenie

TfidfVectorizer do klasyfikacji tekstu

Podobnie jak w przypadku rzadkiej macierzy CountVectorizer z poprzedniego ćwiczenia, tym razem utworzysz wektory tf-idf dla swoich dokumentów. Skonfigurujesz obiekt TfidfVectorizer i przyjrzysz się niektórym jego właściwościom.

W tym ćwiczeniu skorzystasz z bibliotek pandas i sklearn oraz tych samych obiektów X_train, y_train, X_test i y_test — ramek danych i serii, które utworzyłeś w poprzednim ćwiczeniu.

Instrukcje

100 XP
  • Zaimportuj TfidfVectorizer z sklearn.feature_extraction.text.
  • Utwórz obiekt TfidfVectorizer o nazwie tfidf_vectorizer. Podaj argumenty słów kluczowych stop_words="english" oraz max_df=0.7.
  • Dopasuj i przekształć dane treningowe.
  • Przekształć dane testowe.
  • Wyświetl 10 pierwszych cech obiektu tfidf_vectorizer.
  • Wyświetl pierwsze 5 wektorów danych treningowych tf-idf, stosując indeksowanie na atrybucie .A (tablicy) obiektu tfidf_train.