ComenzarEmpieza gratis

NMF aprende los temas de los documentos

En el vídeo, has aprendido que, cuando se aplica NMF a documentos, los componentes se corresponden con los temas de los documentos y las características NMF reconstruyen los documentos a partir de los temas. Compruébalos tú mismo con el modelo NMF que has creado anteriormente utilizando los artículos de Wikipedia. Anteriormente, viste que el valor de la tercera característica NMF era alto para los artículos sobre los actores Anne Hathaway y Denzel Washington. En este ejercicio, identifica el tema del componente NMF correspondiente.

El modelo NMF que creaste anteriormente está disponible como model, mientras que words es una lista de las palabras que etiquetan las columnas del arreglo de frecuencia de palabras.

Cuando hayas terminado, ¡tómate un momento para reconocer el tema que tienen en común los artículos sobre Anne Hathaway y Denzel Washington!

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Ver curso

Instrucciones del ejercicio

  • Importa pandas como pd.
  • Crea un DataFrame components_df a partir de model.components_, configurando columns=words para que las columnas estén etiquetadas por las palabras.
  • Imprime components_df.shape para comprobar las dimensiones del DataFrame.
  • Utiliza el accesorio .iloc[] en el DataFrame components_df para seleccionar la fila 3. Asigna el resultado a component.
  • Llama al método .nlargest() de component, e imprime el resultado. Así se obtienen las cinco palabras con los valores más altos para ese componente.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Editar y ejecutar código