ComenzarEmpieza gratis

Una matriz tf-idf de frecuencia de palabras

En este ejercicio, crearás una matriz de frecuencia de palabras tf-idf para un conjunto de documentos de muestra. Para ello, utiliza la página TfidfVectorizer de sklearn. Transforma una lista de documentos en una matriz de frecuencias de palabras, que emite como matriz_csr. Tiene los métodos fit() y transform() como otros objetos sklearn.

Te dan una lista documents de documentos de muestra sobre animales de compañía.

Este ejercicio forma parte del curso

Aprendizaje no supervisado en Python

Ver curso

Instrucciones de ejercicio

  • Importa TfidfVectorizer desde sklearn.feature_extraction.text.
  • Crea una instancia de TfidfVectorizer llamada tfidf.
  • Aplica el método .fit_transform() de tfidf a documents y asigna el resultado a csr_mat. Es una matriz de frecuencia de palabras en formato csr_matrix.
  • Inspecciona csr_mat llamando a su método .toarray() e imprimiendo el resultado. Esto se te proporciona hecho.
  • Las columnas de la matriz corresponden a palabras. Obtén la lista de palabras llamando al método .get_feature_names() de tfidf, y asigna el resultado a words.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import TfidfVectorizer
from ____ import ____

# Create a TfidfVectorizer: tfidf
tfidf = ____ 

# Apply fit_transform to document: csr_mat
csr_mat = ____

# Print result of toarray() method
print(csr_mat.toarray())

# Get the words: words
words = ____

# Print words
print(words)
Editar y ejecutar código