Qu’est-ce que le tf-idf ?
Vous souhaitez calculer le poids tf-idf pour le mot "computer", qui apparaît cinq fois dans un document de 100 mots. Étant donné un corpus de 200 documents, dont 20 mentionnent le mot "computer", le tf-idf se calcule en multipliant la fréquence du terme par l’inverse de la fréquence documentaire.
Fréquence du terme = part (en pourcentage) du mot par rapport à l’ensemble des tokens du document Inverse de la fréquence documentaire = logarithme du nombre total de documents d’un corpus divisé par le nombre de documents contenant le terme
Laquelle des options ci-dessous est correcte ?
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice