Używanie dłuższych n-gramów

Do tej pory tworzyłeś cechy na podstawie pojedynczych słów w każdym tekście. To podejście może być bardzo skuteczne w modelach uczenia maszynowego, jednak istnieje ryzyko, że analizując słowa osobno, tracisz dużą część kontekstu. Aby temu zaradzić, można stosować n-gramy – sekwencje n kolejnych słów traktowanych jako całość. Na przykład:

bigramy: sekwencje dwóch kolejnych słów
trigramy: sekwencje trzech kolejnych słów

Można je automatycznie generować w zbiorze danych, podając argument ngram_range w postaci krotki (n1, n2), gdzie uwzględniane są wszystkie n-gramy z zakresu od n1 do n2.

Zaimportuj CountVectorizer z sklearn.feature_extraction.text.
Utwórz obiekt CountVectorizer, uwzględniając wyłącznie trigramy.
Dopasuj wektoryzator i zastosuj go do kolumny text_clean w jednym kroku.
Wyświetl nazwy cech wygenerowanych przez wektoryzator.

ćwiczenie

Używanie dłuższych n-gramów

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie