1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Unsupervised Learning bằng Python

Connected

Bài tập

NMF học các chủ đề của tài liệu

Trong video, bạn đã học rằng khi áp dụng NMF cho tài liệu, các thành phần sẽ tương ứng với các chủ đề, và các đặc trưng NMF sẽ tái tạo tài liệu từ các chủ đề đó. Hãy tự kiểm chứng điều này với mô hình NMF mà bạn đã xây dựng trước đó bằng các bài viết Wikipedia. Trước đó, bạn thấy giá trị đặc trưng NMF thứ 3 cao đối với các bài viết về diễn viên Anne Hathaway và Denzel Washington. Trong bài này, hãy xác định chủ đề của thành phần NMF tương ứng.

Mô hình NMF bạn đã xây dựng trước đó có sẵn dưới tên model, còn words là danh sách các từ dùng để đặt nhãn cho các cột của mảng tần suất từ.

Sau khi hoàn thành, hãy dành chút thời gian để nhận ra chủ đề chung giữa các bài viết về Anne Hathaway và Denzel Washington!

Hướng dẫn

100 XP
  • Import pandas với bí danh pd.
  • Tạo một DataFrame components_df từ model.components_, đặt columns=words để các cột được gắn nhãn bằng các từ.
  • In components_df.shape để kiểm tra kích thước của DataFrame.
  • Dùng bộ truy cập .iloc[] trên DataFrame components_df để chọn hàng 3. Gán kết quả cho component.
  • Gọi phương thức .nlargest() của component và in kết quả. Điều này sẽ cho ra 5 từ có giá trị cao nhất cho thành phần đó.