Folosirea n-gramelor mai lungi

Până acum ai creat caracteristici bazate pe cuvinte individuale din fiecare text. Această abordare poate fi foarte utilă într-un model de învățare automată, însă există riscul ca, analizând cuvintele separat, o mare parte din context să se piardă. Pentru a rezolva această problemă, poți folosi n-grame – secvențe de n cuvinte grupate împreună. De exemplu:

bigrame: secvențe de două cuvinte consecutive
trigrame: secvențe de trei cuvinte consecutive

Acestea pot fi generate automat în setul tău de date specificând argumentul ngram_range ca un tuplu (n1, n2), unde sunt incluse toate n-gramele din intervalul de la n1 la n2.

Importă CountVectorizer din sklearn.feature_extraction.text.
Instanțiază CountVectorizer luând în considerare doar trigramele.
Antrenează vectorizatorul și aplică-l pe coloana text_clean într-un singur pas.
Afișează numele caracteristicilor generate de vectorizator.

अभ्यास

Folosirea n-gramelor mai lungi

निर्देश

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास