使用更长的 n-gram

到目前为止，您是基于文本中的单个词来创建特征的。将其用于机器学习模型时往往很有效，但您可能会担心只看单个词会忽略大量上下文。为了解决这个问题，建模时可以使用 n-gram，即由 n 个连续词组成的序列。例如：

在数据集中，您可以通过将 ngram_range 参数指定为元组 (n1, n2) 来自动创建这些特征，其中会包含从 n1 到 n2 范围内的所有 n-gram。

道练习