Ce chapitre vous présente l'identification des sujets, que vous pouvez appliquer à tous les textes que vous rencontrez dans la nature. En utilisant les modèles de base de NLP, vous identifierez les thèmes des textes en fonction de la fréquence des termes. Vous expérimenterez et comparerez deux méthodes simples : bag-of-words et Tf-idf en utilisant NLTK, et une nouvelle bibliothèque Gensim.