1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Model BoW dla tagline'ów filmowych

W tym ćwiczeniu masz do dyspozycji corpus zawierający ponad 7000 tagline'ów filmowych. Twoim zadaniem jest wygenerowanie reprezentacji bag of words — bow_matrix — dla tych tagline'ów. Na tym etapie pomijamy krok wstępnego przetwarzania tekstu i generujemy bow_matrix bezpośrednio.

Sprawdzimy też kształt wynikowej macierzy bow_matrix. Pierwsze pięć tagline'ów z corpus zostało wyświetlonych w konsoli — możesz je przejrzeć.

Instrukcje

100 XP
  • Zaimportuj klasę CountVectorizer z biblioteki sklearn.
  • Utwórz obiekt CountVectorizer i nadaj mu nazwę vectorizer.
  • Korzystając z fit_transform(), wygeneruj bow_matrix dla corpus.