Tf-idf

단어 등장 횟수(count)를 사용하는 것도 모델 구축에 유용하지만, 너무 자주 등장하는 단어는 원치 않게 결과를 왜곡할 수 있어요. 이러한 흔한 단어가 모델을 압도하지 않도록 정규화 기법을 사용할 수 있습니다. 이 레슨에서는 영상에서 다룬 것처럼 Tf-idf(Term frequency–inverse document frequency)를 사용할 거예요. Tf-idf는 흔한 단어의 값은 낮추고, 여러 문서에 많이 등장하지 않는 단어의 가중치는 높이는 효과가 있습니다.