1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w Pythonie

Connected

แบบฝึกหัด

CountVectorizer do klasyfikacji tekstu

Czas zacząć budować klasyfikator tekstu! Dane z tego pliku zostały wczytane do DataFrame o nazwie df. Przejrzyj go w powłoce IPython, aby sprawdzić, jakie kolumny możesz wykorzystać. Metoda .head() dostarczy ci szczególnie przydatnych informacji.

W tym ćwiczeniu użyjesz biblioteki pandas wraz ze scikit-learn, aby utworzyć rzadki wektoryzator tekstu, który posłuży do trenowania i testowania prostego modelu nadzorowanego. Na początek skonfigurujesz CountVectorizer i zapoznasz się z jego możliwościami.

คำแนะนำ

100 XP
  • Zaimportuj CountVectorizer z sklearn.feature_extraction.text oraz train_test_split z sklearn.model_selection.
  • Utwórz Series y z etykietami, przypisując atrybut .label obiektu df do y.
  • Korzystając z df["text"] (cechy) oraz y (etykiety), utwórz zbiory treningowy i testowy za pomocą train_test_split(). Ustaw test_size na 0.33 i random_state na 53.
  • Utwórz obiekt CountVectorizer o nazwie count_vectorizer. Pamiętaj, aby podać argument kluczowy stop_words="english", dzięki czemu słowa stopowe zostaną usunięte.
  • Dopasuj i przetransformuj dane treningowe X_train za pomocą metody .fit_transform() swojego obiektu CountVectorizer. To samo zrób z danymi testowymi X_test, używając tym razem metody .transform().
  • Wyświetl pierwsze 10 cech obiektu count_vectorizer za pomocą jego metody .get_feature_names().