CountVectorizer do klasyfikacji tekstu

Czas zacząć budować klasyfikator tekstu! Dane z tego pliku zostały wczytane do DataFrame o nazwie df. Przejrzyj go w powłoce IPython, aby sprawdzić, jakie kolumny możesz wykorzystać. Metoda .head() dostarczy ci szczególnie przydatnych informacji.

W tym ćwiczeniu użyjesz biblioteki pandas wraz ze scikit-learn, aby utworzyć rzadki wektoryzator tekstu, który posłuży do trenowania i testowania prostego modelu nadzorowanego. Na początek skonfigurujesz CountVectorizer i zapoznasz się z jego możliwościami.

Zaimportuj CountVectorizer z sklearn.feature_extraction.text oraz train_test_split z sklearn.model_selection.
Utwórz Series y z etykietami, przypisując atrybut .label obiektu df do y.
Korzystając z df["text"] (cechy) oraz y (etykiety), utwórz zbiory treningowy i testowy za pomocą train_test_split(). Ustaw test_size na 0.33 i random_state na 53.
Utwórz obiekt CountVectorizer o nazwie count_vectorizer. Pamiętaj, aby podać argument kluczowy stop_words="english", dzięki czemu słowa stopowe zostaną usunięte.
Dopasuj i przetransformuj dane treningowe X_train za pomocą metody .fit_transform() swojego obiektu CountVectorizer. To samo zrób z danymi testowymi X_test, używając tym razem metody .transform().
Wyświetl pierwsze 10 cech obiektu count_vectorizer za pomocą jego metody .get_feature_names().

แบบฝึกหัด

CountVectorizer do klasyfikacji tekstu

คำแนะนำ

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}แบบฝึกหัด

คำแนะนำ

แบบฝึกหัด