ComenzarEmpieza gratis

TF-IDF de sinopsis de películas

Vamos a usar las sinopsis de películas seleccionadas al azar para realizar clustering de documentos. Antes de agrupar documentos, hay que limpiarlos de ruido (como caracteres especiales y stop words) y convertirlos en una matriz dispersa mediante el TF-IDF de los documentos.

Usa la clase TfidfVectorizer para calcular el TF-IDF de las sinopsis almacenadas en la lista plots. La función remove_noise() está disponible para usarla como tokenizer en la clase TfidfVectorizer. El método .fit_transform() ajusta los datos en el objeto TfidfVectorizer y luego genera la matriz dispersa TF-IDF.

Nota: El método .fit_transform() tarda unos segundos en ejecutarse.

Este ejercicio forma parte del curso

Análisis de clústeres en Python

Ver curso

Instrucciones del ejercicio

  • Importa la clase TfidfVectorizer de sklearn.
  • Inicializa la clase TfidfVectorizer con frecuencias mínima y máxima de 0.1 y 0.75, y 50 características máximas.
  • Usa el método fit_transform() del TfidfVectorizer inicializado con la lista plots.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Editar y ejecutar código