1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习特征工程

Connected

道练习

使用更长的 n-gram

到目前为止,您是基于文本中的单个词来创建特征的。将其用于机器学习模型时往往很有效,但您可能会担心只看单个词会忽略大量上下文。为了解决这个问题,建模时可以使用 n-gram,即由 n 个连续词组成的序列。例如:

  • bigrams:两个连续词的序列
  • trigrams:三个连续词的序列

在数据集中,您可以通过将 ngram_range 参数指定为元组 (n1, n2) 来自动创建这些特征,其中会包含从 n1 到 n2 范围内的所有 n-gram。

说明

100 XP
  • 从 sklearn.feature_extraction.text 导入 CountVectorizer。
  • 实例化 CountVectorizer,只考虑 trigrams。
  • 将向量化器在一步中拟合并应用到 text_clean 列。
  • 打印向量化器生成的特征名称。