TF-IDF de argumentos de películas
Utilicemos las tramas de películas seleccionadas al azar para realizar sobre ellas la agrupación de documentos. Antes de realizar la agrupación de los documentos, hay que limpiarlos de cualquier ruido no deseado (como caracteres especiales y palabras vacías) y convertirlos en una matriz dispersa mediante TF-IDF de los documentos.
Utiliza la clase TfidfVectorizer
para realizar la TF-IDF de tramas de películas almacenadas en la lista plots
. La función remove_noise()
se puede utilizar como tokenizer
en la clase TfidfVectorizer
. El método .fit_transform()
ajusta los datos a los objetos TfidfVectorizer
y luego genera la matriz dispersa TF-IDF.
Nota: El método .fit_transform()
tarda unos segundos en ejecutarse.
Este ejercicio forma parte del curso
Análisis de conglomerados en Python
Instrucciones de ejercicio
- Importa la clase
TfidfVectorizer
desklearn
. - Inicializa la clase
TfidfVectorizer
con frecuencias mínima y máxima de 0,1 y 0,75, y 50 características máximas. - Utiliza el método
fit_transform()
en la claseTfidfVectorizer
inicializada con los gráficos de lista.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____