1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Wektory BoW dla recenzji filmowych

W tym ćwiczeniu masz do dyspozycji dwie serie pandas – X_train i X_test – zawierające recenzje filmowe. Reprezentują one odpowiednio dane treningowe i testowe. Twoim zadaniem jest wstępne przetworzenie recenzji i wygenerowanie wektorów BoW dla obu zbiorów przy użyciu CountVectorizer.

Gdy już wygenerujesz macierze wektorów BoW X_train_bow i X_test_bow, będziesz dobrze przygotowany(-a) do zastosowania modelu uczenia maszynowego i przeprowadzenia analizy sentymentu.

Instrukcje

100 XP
  • Zaimportuj CountVectorizer z biblioteki sklearn.
  • Utwórz obiekt CountVectorizer o nazwie vectorizer. Zadbaj o to, aby wszystkie słowa były konwertowane na małe litery i aby usuwane były angielskie stop słowa (english).
  • Korzystając z X_train, dopasuj vectorizer, a następnie użyj go do transformacji X_train w celu wygenerowania zbioru wektorów BoW X_train_bow.
  • Przekształć X_test za pomocą vectorizer, aby wygenerować zbiór wektorów BoW X_test_bow.