1. Learn
  2. /
  3. Courses
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Exercise

Cách dùng danh từ trong tin giả

Trong bài tập này, bạn được cung cấp một dataframe headlines chứa các tiêu đề tin tức là giả hoặc thật. Nhiệm vụ của bạn là tạo hai đặc trưng mới num_propn và num_noun biểu thị số lượng danh từ riêng và các danh từ khác có trong trường title của headlines.

Tiếp theo, bạn sẽ tính số trung bình của danh từ riêng và các danh từ khác được dùng trong tiêu đề tin giả và tin thật rồi so sánh các giá trị này. Nếu có sự khác biệt đáng kể, rất có thể việc dùng các đặc trưng num_propn và num_noun trong bộ phát hiện tin giả sẽ cải thiện hiệu năng của mô hình.

Để hoàn thành nhiệm vụ, các hàm proper_nouns và nouns mà bạn đã xây dựng ở bài trước đã được cung cấp sẵn cho bạn.

Instructions 1/2

undefined XP
  • 1
    • Tạo đặc trưng mới num_propn bằng cách áp dụng proper_nouns lên headlines['title'].
    • Lọc headlines để tính số trung bình danh từ riêng trong tin giả bằng phương thức mean.
  • 2
    • Lặp lại quy trình cho các danh từ khác: tạo đặc trưng 'num_noun' bằng nouns và tính trung bình của các danh từ khác