道练习

Tf-idf

虽然词频计数对构建模型有用，但出现次数非常多的词可能会让结果产生不理想的偏斜。为了防止这些常见词主导您的模型，可以使用一种归一化方法。在本节中，您将使用在视频中介绍的词频-逆文档频率（Tf-idf）。Tf-idf 的效果是：降低常见词的权重，同时提升那些在多数文档中并不常见的词的权重。

100 XP