1. Nauka
  2. /
  3. Kursy
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

ćwiczenie

Numărarea cuvintelor (I)

După ce ai înregistrat informațiile de nivel înalt, poți începe să creezi caracteristici bazate pe conținutul efectiv al fiecărui text. O modalitate de a face acest lucru este să abordezi problema similar cu modul în care ai lucrat cu variabilele categoriale în lecțiile anterioare.

  • Pentru fiecare cuvânt unic din setul de date se creează o coloană.
  • Pentru fiecare intrare, se numără de câte ori apare acel cuvânt, iar valoarea este înregistrată în coloana corespunzătoare.

Aceste coloane de „numărare" pot fi apoi folosite pentru antrenarea modelelor de machine learning.

Instrukcje

100 XP
  • Importă CountVectorizer din sklearn.feature_extraction.text.
  • Instanțiază CountVectorizer și atribuie-l variabilei cv.
  • Antrenează vectorizatorul pe coloana text_clean.
  • Afișează numele caracteristicilor generate de vectorizator.