TF-IDF de sinopsis de películas
Vamos a usar las sinopsis de películas seleccionadas al azar para realizar clustering de documentos. Antes de agrupar documentos, hay que limpiarlos de ruido (como caracteres especiales y stop words) y convertirlos en una matriz dispersa mediante el TF-IDF de los documentos.
Usa la clase TfidfVectorizer para calcular el TF-IDF de las sinopsis almacenadas en la lista plots. La función remove_noise() está disponible para usarla como tokenizer en la clase TfidfVectorizer. El método .fit_transform() ajusta los datos en el objeto TfidfVectorizer y luego genera la matriz dispersa TF-IDF.
Nota: El método .fit_transform() tarda unos segundos en ejecutarse.
Este ejercicio forma parte del curso
Análisis de clústeres en Python
Instrucciones del ejercicio
- Importa la clase
TfidfVectorizerdesklearn. - Inicializa la clase
TfidfVectorizercon frecuencias mínima y máxima de 0.1 y 0.75, y 50 características máximas. - Usa el método
fit_transform()delTfidfVectorizerinicializado con la lista plots.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____