Sử dụng n-gram dài hơn

Đến giờ bạn đã tạo đặc trưng dựa trên từng từ riêng lẻ trong mỗi văn bản. Cách này khá mạnh khi dùng trong mô hình Machine Learning, nhưng bạn có thể lo rằng việc xem xét từng từ riêng lẻ sẽ bỏ qua nhiều ngữ cảnh. Để xử lý điều này khi xây dựng mô hình, bạn có thể dùng n-gram, tức là chuỗi gồm n từ được nhóm lại với nhau. Ví dụ:

bigram: Chuỗi gồm hai từ liên tiếp
trigram: Chuỗi gồm ba từ liên tiếp

Bạn có thể tự động tạo các n-gram này trong dữ liệu bằng cách chỉ định tham số ngram_range dưới dạng một bộ (n1, n2), trong đó mọi n-gram có độ dài từ n1 đến n2 sẽ được đưa vào.

Import CountVectorizer từ sklearn.feature_extraction.text.
Khởi tạo CountVectorizer chỉ xét các trigram.
Fit vectorizer và áp dụng lên cột text_clean trong một bước.
In ra các tên đặc trưng do vectorizer tạo ra.

Bài tập

Sử dụng n-gram dài hơn

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập