Qu'est-ce que le tf-idf ?
Vous souhaitez calculer le poids tf-idf du mot "computer"
, qui apparaît cinq fois dans un document contenant 100 mots. Étant donné un corpus contenant 200 documents, dont 20 documents mentionnant le mot "computer"
, le tf-idf peut être calculé en multipliant la fréquence des termes par la fréquence inverse des documents.
Fréquence du terme = pourcentage du mot par rapport à l'ensemble des tokens du document Fréquence inverse des documents = logarithme du nombre total de documents dans un corpus divisé par le nombre de documents contenant le terme.
Laquelle des options ci-dessous est correcte ?
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
