CommencerCommencer gratuitement

Qu'est-ce que le tf-idf ?

Vous souhaitez calculer le poids tf-idf du mot "computer", qui apparaît cinq fois dans un document contenant 100 mots. Étant donné un corpus contenant 200 documents, dont 20 documents mentionnant le mot "computer", le tf-idf peut être calculé en multipliant la fréquence des termes par la fréquence inverse des documents.

Fréquence du terme = pourcentage du mot par rapport à l'ensemble des tokens du document Fréquence inverse des documents = logarithme du nombre total de documents dans un corpus divisé par le nombre de documents contenant le terme.

Laquelle des options ci-dessous est correcte ?

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice