El NMF identifica los temas de los documentos
En el vídeo has aprendido que, cuando se aplica el NMF a los documentos, los componentes se corresponden con los temas de los documentos, y que las características del NMF reconstruyen los documentos a partir de esos temas. Compruébalo tú mismo con el modelo NMF que creaste antes usando los artículos de Wikipedia. Antes viste que el tercer valor de la característica NMF era alto en los artículos sobre los actores Anne Hathaway y Denzel Washington. En este ejercicio, identifica el tema del componente NMF correspondiente.
El modelo NMF que creaste antes está disponible como model, mientras quewords es una lista de las palabras que etiquetan las columnas del arreglo de frecuencia de palabras.
Cuando hayas terminado, ¡tómate un momento para reconocer el tema que tienen en común los artículos sobre Anne Hathaway y Denzel Washington!
Este ejercicio forma parte del curso
Aprendizaje no supervisado en Python
Instrucciones del ejercicio
- Importa
pandascomopd. - Crea un DataFrame
components_dfa partir demodel.components_, configurandocolumns=wordspara que las columnas estén etiquetadas por las palabras. - Imprime
components_df.shapepara comprobar las dimensiones del DataFrame. - Utiliza el accesorio
.iloc[]en el DataFramecomponents_dfpara seleccionar la fila3. Asigna el resultado acomponent. - Llama al método
.nlargest()decomponent, e imprime el resultado. Así se obtienen las cinco palabras con los valores más altos para ese componente.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())