1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Tf-idf

Deși numărul de apariții ale cuvintelor poate fi util pentru construirea modelelor, cuvintele care apar de foarte multe ori pot distorsiona rezultatele în mod nedorit. Pentru a limita influența acestor cuvinte frecvente asupra modelului tău, se poate folosi o formă de normalizare. În această lecție vei folosi frecvența termenului-frecvența inversă a documentului (Tf-idf), așa cum a fost discutat în videoclip. Tf-idf are efectul de a reduce valoarea cuvintelor comune, mărind în același timp ponderea cuvintelor care nu apar în multe documente.

Instrucțiuni

100 XP
  • Importă TfidfVectorizer din sklearn.feature_extraction.text.
  • Instanțiază TfidfVectorizer limitând numărul de caracteristici la 100 și eliminând cuvintele de stop din engleză.
  • Antrenează și aplică vectorizatorul pe coloana text_clean într-un singur pas.
  • Creează un DataFrame tv_df care să conțină ponderile cuvintelor și numele caracteristicilor ca nume de coloane.