Instanciar o modelo TF-IDF

Por padrão, o TF-IDF gera uma coluna para cada palavra em todos os seus documentos (no nosso caso, os resumos dos filmes). Isso cria um conjunto de dados enorme e pouco intuitivo, pois vai conter tanto palavras muito comuns, que aparecem em todo documento, quanto palavras tão raras que não ajudam em nada a encontrar similaridades entre itens.

Neste exercício, você vai trabalhar com o DataFrame df_plots. Ele contém os nomes dos filmes na coluna Title e seus enredos na coluna Plot.

Usando esse DataFrame, você vai gerar as pontuações padrão de TF-IDF e verificar se há colunas pouco úteis.

Depois, você vai refazer os cálculos de TF-IDF, desta vez limitando o número de colunas usando os argumentos min_df e max_df e, com sorte, verá a melhora.

Este exercicio faz parte do curso

Construindo mecanismos de recomendação em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()

# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])

# Look at the features generated
print(____.____())

Editar e Executar Código