ComeçarComece de graça

Criando o DataFrame de TF-IDF

Agora que você gerou os atributos de TF-IDF, precisa colocá-los em um formato que possa usar para fazer recomendações. Mais uma vez, você vai usar o pandas para isso e envolver o array em um DataFrame. Como você usará os títulos dos filmes para filtrar os dados, pode atribuir os títulos ao índice do DataFrame.

O DataFrame df_plots já foi carregado para você. Ele contém os nomes dos filmes na coluna Title e suas sinopses na coluna Plot.

Este exercício faz parte do curso

Construindo mecanismos de recomendação em Python

Ver curso

Instruções do exercício

  • Crie um TfidfVectorizer e faça o ajuste e a transformação como no exercício anterior.
  • Envolva o vectorized_data gerado em um DataFrame. Use os nomes dos atributos gerados durante as fases de ajuste e transformação como nomes de colunas e atribua seu novo DataFrame a tfidf_df.
  • Atribua os títulos originais dos filmes ao índice do novo DataFrame tfidf_df.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from sklearn.feature_extraction.text import TfidfVectorizer

# Instantiate the vectorizer object and transform the plot column
vectorizer = ____(max_df=0.7, min_df=2)
vectorized_data = vectorizer.____(df_plots['Plot']) 

# Create Dataframe from TF-IDFarray
tfidf_df = pd.____(____.toarray(), columns=vectorizer.____())

# Assign the movie titles to the index and inspect
tfidf_df.____ = ____['Title']
print(tfidf_df.head())
Editar e executar o código