1. Apprendre
  2. /
  3. Cours
  4. /
  5. Prétraitement pour le Machine Learning en Python

Connected

Exercice

Explorer les vecteurs de texte, partie 1

Poursuivons l'exploration des vecteurs de texte que nous venons d'apprendre, en utilisant les vecteurs tf/idf de title du jeu de données volunteer. Dans cette première partie sur l'exploration des vecteurs de texte, nous allons bonifier la fonction vue dans le diaporama. Nous ferons retourner une liste de nombres par la fonction. Dans le prochain exercice, nous écrirons une autre fonction pour rassembler les mots les plus fréquents dans l'ensemble des documents, les extraire, puis utiliser cette liste pour filtrer notre vecteur text_tfidf.

Instructions

100 XP
  • Ajoutez des paramètres nommés original_vocab, pour tfidf_vec.vocabulary_, et top_n.
  • Appelez pd.Series() sur le dictionnaire zippé. Cela facilitera les opérations à effectuer dessus.
  • Utilisez la fonction .sort_values() pour trier la série et tranchez l'index jusqu'aux top_n mots.
  • Appelez la fonction en définissant original_vocab=tfidf_vec.vocabulary_, en définissant vector_index=8 pour récupérer la 9e ligne et en définissant top_n=3 pour obtenir les 3 mots les mieux pondérés.