1. Learn
  2. /
  3. कोर्स
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

अभ्यास

Folosirea n-gramelor mai lungi

Până acum ai creat caracteristici bazate pe cuvinte individuale din fiecare text. Această abordare poate fi foarte utilă într-un model de învățare automată, însă există riscul ca, analizând cuvintele separat, o mare parte din context să se piardă. Pentru a rezolva această problemă, poți folosi n-grame – secvențe de n cuvinte grupate împreună. De exemplu:

  • bigrame: secvențe de două cuvinte consecutive
  • trigrame: secvențe de trei cuvinte consecutive

Acestea pot fi generate automat în setul tău de date specificând argumentul ngram_range ca un tuplu (n1, n2), unde sunt incluse toate n-gramele din intervalul de la n1 la n2.

निर्देश

100 XP
  • Importă CountVectorizer din sklearn.feature_extraction.text.
  • Instanțiază CountVectorizer luând în considerare doar trigramele.
  • Antrenează vectorizatorul și aplică-l pe coloana text_clean într-un singur pas.
  • Afișează numele caracteristicilor generate de vectorizator.