1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习预处理

Connected

道练习

使用 tf/idf 向量进行文本分类

现在,您已经将 volunteer 数据集的 title 列编码为 tf/idf 向量,接下来将使用这些向量来预测 category_desc 列。

说明

100 XP
  • 将 text_tfidf 向量与目标变量 y 划分为训练集和测试集。由于类别分布不均,请将 stratify 参数设为 y。注意,我们需要对 tf/idf 向量调用 .toarray() 方法,才能转换为 scikit-learn 需要的格式。
  • 将 X_train 和 y_train 拟合到朴素贝叶斯模型 nb。
  • 打印测试集的准确率。