1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Używanie dłuższych n-gramów

Do tej pory tworzyłeś cechy na podstawie pojedynczych słów w każdym tekście. To podejście może być bardzo skuteczne w modelach uczenia maszynowego, jednak istnieje ryzyko, że analizując słowa osobno, tracisz dużą część kontekstu. Aby temu zaradzić, można stosować n-gramy – sekwencje n kolejnych słów traktowanych jako całość. Na przykład:

  • bigramy: sekwencje dwóch kolejnych słów
  • trigramy: sekwencje trzech kolejnych słów

Można je automatycznie generować w zbiorze danych, podając argument ngram_range w postaci krotki (n1, n2), gdzie uwzględniane są wszystkie n-gramy z zakresu od n1 do n2.

Instrukcje

100 XP
  • Zaimportuj CountVectorizer z sklearn.feature_extraction.text.
  • Utwórz obiekt CountVectorizer, uwzględniając wyłącznie trigramy.
  • Dopasuj wektoryzator i zastosuj go do kolumny text_clean w jednym kroku.
  • Wyświetl nazwy cech wygenerowanych przez wektoryzator.