1. Apprendre
  2. /
  3. Cours
  4. /
  5. Prétraitement pour le Machine Learning en Python

Connected

Exercice

Explorer les vecteurs de texte, partie 2

En utilisant la fonction return_weights() que vous avez écrite dans l'exercice précédent, vous allez maintenant extraire les mots les plus importants de chaque document du vecteur de texte, retourner une liste des indices de mots, puis utiliser cette liste pour ne conserver que ces mots clés dans le vecteur de texte.

Instructions

100 XP
  • Appelez return_weights() pour obtenir les mots les mieux pondérés de ce document.
  • Appelez set() sur le filter_list retourné pour enlever les doublons.
  • Appelez words_to_filter en passant les paramètres suivants : vocab pour le paramètre vocab, tfidf_vec.vocabulary_ pour le paramètre original_vocab, text_tfidf pour le paramètre vector, et 3 pour récupérer les 3 mots top_n les mieux pondérés de chaque document.
  • Enfin, passez cet ensemble filtered_words dans une liste à utiliser comme filtre pour le vecteur de texte.