Vettori tf-idf per i TED Talk
In questo esercizio ti viene fornito un corpus ted che contiene le trascrizioni di 500 TED Talk. Il tuo compito è generare i vettori tf-idf per questi talk.
In una lezione successiva useremo questi vettori per generare consigli di talk simili in base alla trascrizione.
Questo esercizio fa parte del corso
Feature Engineering per NLP in Python
Istruzioni dell'esercizio
- Importa
TfidfVectorizerdasklearn. - Crea un oggetto
TfidfVectorizer. Chiamalovectorizer. - Genera
tfidf_matrixpertedusando il metodofit_transform().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import TfidfVectorizer
from ____ import ____
# Create TfidfVectorizer object
____
# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)
# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)