1. Learn
  2. /
  3. 课程
  4. /
  5. Python 中的机器学习特征工程

Connected

道练习

转换未见过的数据

从文本创建向量时,任何在训练机器学习模型前执行的转换,也需要同样应用到新的、未见过的(测试)数据上。要做到这一点,请遵循上一章相同的方法:仅在训练数据上拟合 vectorizer,并将其应用到测试数据。

在本练习中,speech_df DataFrame 已被拆分为两部分:

  • train_speech_df:训练集,包含前 45 篇演讲。
  • test_speech_df:测试集,包含其余的演讲。

说明

100 XP
  • 实例化 TfidfVectorizer。
  • 拟合该 vectorizer,并将其应用到 text_clean 列。
  • 在测试数据的 text_clean 列上应用相同的 vectorizer。
  • 使用测试集中的这些新特征创建一个 DataFrame。