ComenzarEmpieza gratis

TF-IDF de argumentos de películas

Utilicemos las tramas de películas seleccionadas al azar para realizar sobre ellas la agrupación de documentos. Antes de realizar la agrupación de los documentos, hay que limpiarlos de cualquier ruido no deseado (como caracteres especiales y palabras vacías) y convertirlos en una matriz dispersa mediante TF-IDF de los documentos.

Utiliza la clase TfidfVectorizer para realizar la TF-IDF de tramas de películas almacenadas en la lista plots. La función remove_noise() se puede utilizar como tokenizer en la clase TfidfVectorizer. El método .fit_transform() ajusta los datos a los objetos TfidfVectorizer y luego genera la matriz dispersa TF-IDF.

Nota: El método .fit_transform() tarda unos segundos en ejecutarse.

Este ejercicio forma parte del curso

Análisis de conglomerados en Python

Ver curso

Instrucciones de ejercicio

  • Importa la clase TfidfVectorizer de sklearn.
  • Inicializa la clase TfidfVectorizer con frecuencias mínima y máxima de 0,1 y 0,75, y 50 características máximas.
  • Utiliza el método fit_transform() en la clase TfidfVectorizer inicializada con los gráficos de lista.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Editar y ejecutar código