Vecteurs tf-idf pour les conférences TED
Dans cet exercice, on vous fournit un corpus ted qui contient les transcriptions de 500 conférences TED. Votre objectif est de générer les vecteurs tf-idf pour ces conférences.
Dans une leçon ultérieure, nous utiliserons ces vecteurs pour recommander des conférences similaires à partir de leur transcription.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Importez
TfidfVectorizerdepuissklearn. - Créez un objet
TfidfVectorizer. Nommez-levectorizer. - Générez
tfidf_matrixpourteden utilisant la méthodefit_transform().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import TfidfVectorizer
from ____ import ____
# Create TfidfVectorizer object
____
# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)
# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)