1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Tf-idf

Zliczanie wystąpień słów może być przydatne przy budowaniu modeli, jednak słowa pojawiające się bardzo często mogą niepożądanie zaburzać wyniki. Aby ograniczyć wpływ takich popularnych słów na model, można zastosować normalizację. W tym ćwiczeniu skorzystasz z metody TF-IDF (Term Frequency-Inverse Document Frequency), omówionej w materiale wideo. TF-IDF zmniejsza wagę słów często występujących w korpusie, jednocześnie zwiększając znaczenie słów rzadkich, pojawiających się tylko w nielicznych dokumentach.

Instrukcje

100 XP
  • Zaimportuj TfidfVectorizer z biblioteki sklearn.feature_extraction.text.
  • Utwórz instancję TfidfVectorizer, ograniczając liczbę cech do 100 i usuwając angielskie stop words.
  • Dopasuj i zastosuj wektoryzator na kolumnie text_clean w jednym kroku.
  • Utwórz DataFrame tv_df zawierający wagi słów, używając nazw cech jako nazw kolumn.