NMF เรียนรู้หัวข้อของเอกสาร

ในวิดีโอ คุณได้เรียนรู้ว่าเมื่อนำ NMF ไปใช้กับเอกสาร แต่ละ component จะสอดคล้องกับหัวข้อ (topic) ของเอกสาร และ feature ของ NMF จะช่วยสร้างเอกสารขึ้นมาใหม่จากหัวข้อเหล่านั้น ลองตรวจสอบสิ่งนี้ด้วยตัวเองโดยใช้โมเดล NMF ที่สร้างไว้ก่อนหน้านี้จากบทความ Wikipedia

ก่อนหน้านี้ คุณพบว่าค่า feature ที่ 3 ของ NMF มีค่าสูงสำหรับบทความเกี่ยวกับนักแสดง Anne Hathaway และ Denzel Washington ในแบบฝึกหัดนี้ ให้ระบุหัวข้อของ NMF component ที่สอดคล้องกัน

โมเดล NMF ที่สร้างไว้พร้อมใช้งานในชื่อ model ส่วน words คือรายการคำที่ใช้เป็น label ของคอลัมน์ในอาร์เรย์ความถี่ของคำ

เมื่อทำเสร็จแล้ว ลองสังเกตดูว่าบทความของ Anne Hathaway และ Denzel Washington มีหัวข้อร่วมกันอะไรบ้าง!

Import pandas ในชื่อ pd
สร้าง DataFrame ชื่อ components_df จาก model.components_ โดยกำหนด columns=words เพื่อให้คอลัมน์มี label เป็นชื่อคำ
พิมพ์ components_df.shape เพื่อตรวจสอบขนาดของ DataFrame
ใช้ตัวเข้าถึง .iloc[] บน DataFrame components_df เพื่อเลือกแถวที่ 3 แล้วกำหนดผลลัพธ์ให้กับ component
เรียกใช้เมธอด .nlargest() ของ component แล้วพิมพ์ผลลัพธ์ เพื่อดูคำ 5 คำที่มีค่าสูงสุดสำหรับ component นั้น

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}แบบฝึกหัด

คำแนะนำ

แบบฝึกหัด