Criando o DataFrame de TF-IDF
Agora que você gerou os atributos de TF-IDF, precisa colocá-los em um formato que possa usar para fazer recomendações.
Mais uma vez, você vai usar o pandas para isso e envolver o array em um DataFrame.
Como você usará os títulos dos filmes para filtrar os dados, pode atribuir os títulos ao índice do DataFrame.
O DataFrame df_plots já foi carregado para você. Ele contém os nomes dos filmes na coluna Title e suas sinopses na coluna Plot.
Este exercício faz parte do curso
Construindo mecanismos de recomendação em Python
Instruções do exercício
- Crie um
TfidfVectorizere faça o ajuste e a transformação como no exercício anterior. - Envolva o
vectorized_datagerado em um DataFrame. Use os nomes dos atributos gerados durante as fases de ajuste e transformação como nomes de colunas e atribua seu novo DataFrame atfidf_df. - Atribua os títulos originais dos filmes ao índice do novo DataFrame
tfidf_df.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from sklearn.feature_extraction.text import TfidfVectorizer
# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot'])
# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())
# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())