1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Zliczanie słów (I)

Po zebraniu informacji ogólnych możesz przystąpić do tworzenia cech na podstawie rzeczywistej treści poszczególnych tekstów. Jednym ze sposobów jest podejście podobne do tego, którego użyto przy pracy ze zmiennymi kategorycznymi we wcześniejszych lekcjach.

  • Dla każdego unikalnego słowa w zbiorze danych tworzona jest osobna kolumna.
  • Dla każdego wpisu zliczana jest liczba wystąpień danego słowa, a wynik trafia do odpowiedniej kolumny.

Tak powstałe kolumny „zliczeń" można następnie wykorzystać do trenowania modeli uczenia maszynowego.

Instrukcje

100 XP
  • Zaimportuj CountVectorizer z sklearn.feature_extraction.text.
  • Utwórz instancję CountVectorizer i przypisz ją do zmiennej cv.
  • Dopasuj wektoryzator do kolumny text_clean.
  • Wyświetl nazwy cech wygenerowanych przez wektoryzator.