CommencerCommencer gratuitement

Vecteurs tf-idf pour les conférences TED

Dans cet exercice, on vous fournit un corpus ted qui contient les transcriptions de 500 conférences TED. Votre objectif est de générer les vecteurs tf-idf pour ces conférences.

Dans une leçon ultérieure, nous utiliserons ces vecteurs pour recommander des conférences similaires à partir de leur transcription.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Importez TfidfVectorizer depuis sklearn.
  • Créez un objet TfidfVectorizer. Nommez-le vectorizer.
  • Générez tfidf_matrix pour ted en utilisant la méthode fit_transform().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import TfidfVectorizer
from ____ import ____

# Create TfidfVectorizer object
____

# Generate matrix of word vectors
tfidf_matrix = vectorizer.____(____)

# Print the shape of tfidf_matrix
print(tfidf_matrix.shape)
Modifier et exécuter le code