NMFは文書のトピックを学習します

この動画では、文書にNMFを適用すると、コンポーネントが文書のトピックに対応し、NMFの特徴量はトピックから文書を再構成することを学びました。ここでは、先ほどWikipediaの記事で作成したNMFモデルについて、これを自分で確かめてみましょう。以前、俳優のAnne HathawayとDenzel Washingtonに関する記事で、3番目のNMF特徴量の値が高かったことを見ました。この演習では、対応するNMFコンポーネントのトピックを特定します。

先ほど作成したNMFモデルは model として利用でき、words は単語頻度配列の列に対応する単語のリストです。

終わったら、Anne Hathaway と Denzel Washington に関する記事が共通して持つトピックにぜひ気づいてみてください！

pandas を pd としてインポートします。
model.components_ から DataFrame components_df を作成し、列名が単語になるように columns=words を指定します。
DataFrame の次元を確認するために components_df.shape を出力します。
DataFrame components_df に対して .iloc[] アクセサを使い、行 3 を選択します。結果を component に代入します。
component の .nlargest() メソッドを呼び出して結果を出力します。これにより、そのコンポーネントで値が最も大きい5つの単語が得られます。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習