NMF aprende los temas de los documentos
En el vídeo, aprendiste que cuando se aplica NMF a los documentos, los componentes corresponden a los temas de los documentos, y las características de NMF reconstruyen los documentos a partir de los temas. Compruébalo tú mismo para el modelo NMF que has construido antes utilizando los artículos de Wikipedia. Anteriormente, viste que el valor de la 3.ª característica NMF era alto para los artículos sobre los actores Anne Hathaway y Denzel Washington. En este ejercicio, identifica el tema del componente NMF correspondiente.
El modelo NMF que construiste anteriormente está disponible como model
, mientras que words
es una lista de las palabras que etiquetan las columnas de la matriz de frecuencia de palabras.
Cuando hayas terminado, ¡tómate un momento para reconocer el tema que tienen en común los artículos sobre Anne Hathaway y Denzel Washington!
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones de ejercicio
- Importa
pandas
comopd
. - Crea un DataFrame
components_df
a partir demodel.components_
, configurandocolumns=words
para que las columnas estén etiquetadas por las palabras. - Imprime
components_df.shape
para comprobar las dimensiones del DataFrame. - Utiliza el accesorio
.iloc[]
en el DataFramecomponents_df
para seleccionar la fila3
. Asigna el resultado acomponent
. - Llama al método
.nlargest()
decomponent
, e imprime el resultado. Así se obtienen las cinco palabras con los valores más altos para ese componente.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())