NMF mempelajari topik dokumen
Dalam video, Anda mempelajari bahwa ketika NMF diterapkan pada dokumen, komponen-komponennya berkorespondensi dengan topik dokumen, dan fitur NMF merekonstruksi dokumen dari topik-topik tersebut. Verifikasi sendiri untuk model NMF yang Anda bangun sebelumnya menggunakan artikel Wikipedia. Sebelumnya, Anda melihat bahwa nilai fitur NMF ke-3 tinggi untuk artikel tentang aktor Anne Hathaway dan Denzel Washington. Pada latihan ini, identifikasi topik dari komponen NMF yang bersesuaian.
Model NMF yang Anda bangun sebelumnya tersedia sebagai model, sementara words adalah daftar kata yang menjadi label kolom pada array frekuensi kata.
Setelah selesai, luangkan waktu sejenak untuk mengenali topik yang sama-sama dimiliki oleh artikel tentang Anne Hathaway dan Denzel Washington!
Latihan ini adalah bagian dari kursus
Unsupervised Learning in Python
Petunjuk latihan
- Impor
pandassebagaipd. - Buat DataFrame
components_dfdarimodel.components_, aturcolumns=wordssehingga kolom-kolomnya dilabeli oleh kata-kata. - Cetak
components_df.shapeuntuk memeriksa dimensi DataFrame. - Gunakan pengakses
.iloc[]pada DataFramecomponents_dfuntuk memilih baris3. Tetapkan hasilnya kecomponent. - Panggil metode
.nlargest()padacomponent, dan cetak hasilnya. Ini akan memberikan lima kata dengan nilai tertinggi untuk komponen tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())