CommencerCommencer gratuitement

Qu’est-ce que le tf-idf ?

Vous souhaitez calculer le poids tf-idf pour le mot "computer", qui apparaît cinq fois dans un document de 100 mots. Étant donné un corpus de 200 documents, dont 20 mentionnent le mot "computer", le tf-idf se calcule en multipliant la fréquence du terme par l’inverse de la fréquence documentaire.

Fréquence du terme = part (en pourcentage) du mot par rapport à l’ensemble des tokens du document Inverse de la fréquence documentaire = logarithme du nombre total de documents d’un corpus divisé par le nombre de documents contenant le terme

Laquelle des options ci-dessous est correcte ?

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice