Tf-idf

Deși numărul de apariții ale cuvintelor poate fi util pentru construirea modelelor, cuvintele care apar de foarte multe ori pot distorsiona rezultatele în mod nedorit. Pentru a limita influența acestor cuvinte frecvente asupra modelului tău, se poate folosi o formă de normalizare. În această lecție vei folosi frecvența termenului-frecvența inversă a documentului (Tf-idf), așa cum a fost discutat în videoclip. Tf-idf are efectul de a reduce valoarea cuvintelor comune, mărind în același timp ponderea cuvintelor care nu apar în multe documente.

Importă TfidfVectorizer din sklearn.feature_extraction.text.
Instanțiază TfidfVectorizer limitând numărul de caracteristici la 100 și eliminând cuvintele de stop din engleză.
Antrenează și aplică vectorizatorul pe coloana text_clean într-un singur pas.
Creează un DataFrame tv_df care să conțină ponderile cuvintelor și numele caracteristicilor ca nume de coloane.

exercițiu

Tf-idf

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu