Tf-idf

Mặc dù đếm số lần xuất hiện của từ có thể hữu ích để xây dựng mô hình, các từ xuất hiện quá nhiều có thể làm lệch kết quả theo hướng không mong muốn. Để ngăn các từ phổ biến lấn át mô hình, bạn có thể dùng một dạng chuẩn hóa. Trong bài này, bạn sẽ sử dụng Term frequency-inverse document frequency (Tf-idf) như đã đề cập trong video. Tf-idf giúp giảm giá trị của các từ phổ biến, đồng thời tăng trọng số cho những từ không xuất hiện trong nhiều tài liệu.

Import TfidfVectorizer từ sklearn.feature_extraction.text.
Khởi tạo TfidfVectorizer với số lượng đặc trưng tối đa là 100 và loại bỏ các stop words tiếng Anh.
Fit và áp dụng vectorizer lên cột text_clean trong một bước.
Tạo DataFrame tv_df chứa các trọng số của từ và dùng tên đặc trưng làm tên cột.

Bài tập

Tf-idf

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập