1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech dla NLP w Pythonie

Connected

ćwiczenie

Analiza wymiarowości i przetwarzanie wstępne

W tym ćwiczeniu masz do dyspozycji lem_corpus zawierający przetworzone wersje tagline'ów filmowych z poprzedniego ćwiczenia. Innymi słowy, tagline'y zostały zamienione na małe litery, zlemmatyzowane, a stopwordy usunięte.

Twoim zadaniem jest wygenerowanie reprezentacji bag-of-words bow_lem_matrix dla tych zlemmatyzowanych tagline'ów oraz porównanie jej kształtu z kształtem bow_matrix uzyskanej w poprzednim ćwiczeniu. Pierwszych pięć zlemmatyzowanych tagline'ów z lem_corpus zostało wyświetlonych w konsoli, abyś mógł je przejrzeć.

Instrukcje

100 XP
  • Zaimportuj klasę CountVectorizer z biblioteki sklearn.
  • Utwórz obiekt CountVectorizer. Nadaj mu nazwę vectorizer.
  • Korzystając z metody fit_transform(), wygeneruj bow_lem_matrix dla lem_corpus.