NMF identifică topicele documentelor

În lecția video, ai văzut că atunci când NMF este aplicat pe documente, componentele corespund topicelor acestora, iar caracteristicile NMF reconstruiesc documentele pe baza topicelor. Verifică acest lucru pe modelul NMF construit anterior folosind articolele Wikipedia. Anterior, ai observat că a 3-a valoare a caracteristicii NMF era ridicată pentru articolele despre actorii Anne Hathaway și Denzel Washington. În acest exercițiu, identifică topicul componentei NMF corespunzătoare.

Modelul NMF construit anterior este disponibil ca model, iar words este o listă cu cuvintele care etichetează coloanele matricei de frecvențe a cuvintelor.

După ce termini, ia un moment să recunoști topicul pe care îl au în comun articolele despre Anne Hathaway și Denzel Washington!

Importă pandas ca pd.
Creează un DataFrame components_df din model.components_, setând columns=words astfel încât coloanele să fie etichetate cu cuvintele.
Afișează components_df.shape pentru a verifica dimensiunile DataFrame-ului.
Folosește accessorul .iloc[] pe DataFrame-ul components_df pentru a selecta rândul 3. Atribuie rezultatul variabilei component.
Apelează metoda .nlargest() pe component și afișează rezultatul. Aceasta returnează cele cinci cuvinte cu cele mai mari valori pentru acea componentă.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu