ComeçarComece gratuitamente

TF-IDF de enredos de filmes

Vamos usar os gráficos de filmes selecionados aleatoriamente para realizar o agrupamento de documentos. Antes de executar o clustering nos documentos, eles precisam ser limpos de qualquer ruído indesejado (como caracteres especiais e palavras de parada) e convertidos em uma matriz esparsa por meio do site TF-IDF dos documentos.

Use a classe TfidfVectorizer para executar o TF-IDF dos gráficos de filmes armazenados na lista plots. A função remove_noise() está disponível para ser usada como tokenizer na classe TfidfVectorizer. O método .fit_transform() ajusta os dados aos objetos TfidfVectorizer e, em seguida, gera a matriz esparsa TF-IDF.

Observação: O método .fit_transform() leva alguns segundos para ser executado.

Este exercício faz parte do curso

Análise de cluster em Python

Ver Curso

Instruções de exercício

  • Importar a classe TfidfVectorizer de sklearn.
  • Inicialize a classe TfidfVectorizer com frequências mínimas e máximas de 0,1 e 0,75 e 50 recursos máximos.
  • Use o método fit_transform() na classe TfidfVectorizer inicializada com os gráficos de lista.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____
Editar e executar código