MulaiMulai sekarang secara gratis

NMF mempelajari topik dokumen

Dalam video, Anda mempelajari bahwa ketika NMF diterapkan pada dokumen, komponen-komponennya berkorespondensi dengan topik dokumen, dan fitur NMF merekonstruksi dokumen dari topik-topik tersebut. Verifikasi sendiri untuk model NMF yang Anda bangun sebelumnya menggunakan artikel Wikipedia. Sebelumnya, Anda melihat bahwa nilai fitur NMF ke-3 tinggi untuk artikel tentang aktor Anne Hathaway dan Denzel Washington. Pada latihan ini, identifikasi topik dari komponen NMF yang bersesuaian.

Model NMF yang Anda bangun sebelumnya tersedia sebagai model, sementara words adalah daftar kata yang menjadi label kolom pada array frekuensi kata.

Setelah selesai, luangkan waktu sejenak untuk mengenali topik yang sama-sama dimiliki oleh artikel tentang Anne Hathaway dan Denzel Washington!

Latihan ini adalah bagian dari kursus

Unsupervised Learning in Python

Lihat Kursus

Petunjuk latihan

  • Impor pandas sebagai pd.
  • Buat DataFrame components_df dari model.components_, atur columns=words sehingga kolom-kolomnya dilabeli oleh kata-kata.
  • Cetak components_df.shape untuk memeriksa dimensi DataFrame.
  • Gunakan pengakses .iloc[] pada DataFrame components_df untuk memilih baris 3. Tetapkan hasilnya ke component.
  • Panggil metode .nlargest() pada component, dan cetak hasilnya. Ini akan memberikan lima kata dengan nilai tertinggi untuk komponen tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Edit dan Jalankan Kode