TF-IDF de enredos de filmes
Vamos usar os gráficos de filmes selecionados aleatoriamente para realizar o agrupamento de documentos. Antes de executar o clustering nos documentos, eles precisam ser limpos de qualquer ruído indesejado (como caracteres especiais e palavras de parada) e convertidos em uma matriz esparsa por meio do site TF-IDF dos documentos.
Use a classe TfidfVectorizer
para executar o TF-IDF dos gráficos de filmes armazenados na lista plots
. A função remove_noise()
está disponível para ser usada como tokenizer
na classe TfidfVectorizer
. O método .fit_transform()
ajusta os dados aos objetos TfidfVectorizer
e, em seguida, gera a matriz esparsa TF-IDF.
Observação: O método .fit_transform()
leva alguns segundos para ser executado.
Este exercício faz parte do curso
Análise de cluster em Python
Instruções de exercício
- Importar a classe
TfidfVectorizer
desklearn
. - Inicialize a classe
TfidfVectorizer
com frequências mínimas e máximas de 0,1 e 0,75 e 50 recursos máximos. - Use o método
fit_transform()
na classeTfidfVectorizer
inicializada com os gráficos de lista.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____
# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)
# Use the .fit_transform() method on the list plots
tfidf_matrix = ____