1. Learn
  2. /
  3. คอร์ส
  4. /
  5. Unsupervised Learning ใน Python

Connected

แบบฝึกหัด

NMF เรียนรู้หัวข้อของเอกสาร

ในวิดีโอ คุณได้เรียนรู้ว่าเมื่อนำ NMF ไปใช้กับเอกสาร แต่ละ component จะสอดคล้องกับหัวข้อ (topic) ของเอกสาร และ feature ของ NMF จะช่วยสร้างเอกสารขึ้นมาใหม่จากหัวข้อเหล่านั้น ลองตรวจสอบสิ่งนี้ด้วยตัวเองโดยใช้โมเดล NMF ที่สร้างไว้ก่อนหน้านี้จากบทความ Wikipedia

ก่อนหน้านี้ คุณพบว่าค่า feature ที่ 3 ของ NMF มีค่าสูงสำหรับบทความเกี่ยวกับนักแสดง Anne Hathaway และ Denzel Washington ในแบบฝึกหัดนี้ ให้ระบุหัวข้อของ NMF component ที่สอดคล้องกัน

โมเดล NMF ที่สร้างไว้พร้อมใช้งานในชื่อ model ส่วน words คือรายการคำที่ใช้เป็น label ของคอลัมน์ในอาร์เรย์ความถี่ของคำ

เมื่อทำเสร็จแล้ว ลองสังเกตดูว่าบทความของ Anne Hathaway และ Denzel Washington มีหัวข้อร่วมกันอะไรบ้าง!

คำแนะนำ

100 XP
  • Import pandas ในชื่อ pd
  • สร้าง DataFrame ชื่อ components_df จาก model.components_ โดยกำหนด columns=words เพื่อให้คอลัมน์มี label เป็นชื่อคำ
  • พิมพ์ components_df.shape เพื่อตรวจสอบขนาดของ DataFrame
  • ใช้ตัวเข้าถึง .iloc[] บน DataFrame components_df เพื่อเลือกแถวที่ 3 แล้วกำหนดผลลัพธ์ให้กับ component
  • เรียกใช้เมธอด .nlargest() ของ component แล้วพิมพ์ผลลัพธ์ เพื่อดูคำ 5 คำที่มีค่าสูงสุดสำหรับ component นั้น