Instanciar o modelo TF-IDF
Por padrão, o TF-IDF gera uma coluna para cada palavra em todos os seus documentos (no nosso caso, os resumos dos filmes). Isso cria um conjunto de dados enorme e pouco intuitivo, pois vai conter tanto palavras muito comuns, que aparecem em todo documento, quanto palavras tão raras que não ajudam em nada a encontrar similaridades entre itens.
Neste exercício, você vai trabalhar com o DataFrame df_plots. Ele contém os nomes dos filmes na coluna Title e seus enredos na coluna Plot.
Usando esse DataFrame, você vai gerar as pontuações padrão de TF-IDF e verificar se há colunas pouco úteis.
Depois, você vai refazer os cálculos de TF-IDF, desta vez limitando o número de colunas usando os argumentos min_df e max_df e, com sorte, verá a melhora.
Este exercício faz parte do curso
Construindo mecanismos de recomendação em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object to the vectorizer variable
vectorizer = ____()
# Fit and transform the plot column
vectorized_data = vectorizer.____(df_plots['Plot'])
# Look at the features generated
print(____.____())