TfidfVectorizer do klasyfikacji tekstu

Podobnie jak w przypadku rzadkiej macierzy CountVectorizer z poprzedniego ćwiczenia, tym razem utworzysz wektory tf-idf dla swoich dokumentów. Skonfigurujesz obiekt TfidfVectorizer i przyjrzysz się niektórym jego właściwościom.

W tym ćwiczeniu skorzystasz z bibliotek pandas i sklearn oraz tych samych obiektów X_train, y_train, X_test i y_test — ramek danych i serii, które utworzyłeś w poprzednim ćwiczeniu.

Zaimportuj TfidfVectorizer z sklearn.feature_extraction.text.
Utwórz obiekt TfidfVectorizer o nazwie tfidf_vectorizer. Podaj argumenty słów kluczowych stop_words="english" oraz max_df=0.7.
Dopasuj i przekształć dane treningowe.
Przekształć dane testowe.
Wyświetl 10 pierwszych cech obiektu tfidf_vectorizer.
Wyświetl pierwsze 5 wektorów danych treningowych tf-idf, stosując indeksowanie na atrybucie .A (tablicy) obiektu tfidf_train.

ćwiczenie

TfidfVectorizer do klasyfikacji tekstu

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie