1. Learn
  2. /
  3. Courses
  4. /
  5. Python 中的机器学习特征工程

Connected

Exercise

清理文本

非结构化文本数据无法直接用于大多数分析。从一段长的自由文本到可供机器学习模型摄入的、格式正确的数值型列,中间需要经过多步处理。第一步是对数据进行标准化,并清除可能在后续分析流程中引发问题的字符。

在本章中,您将使用一个新的数据集,其中包含美国总统的就职演说,已加载为 speech_df,演讲内容存储在 text 列中。

Instructions 1/2

undefined XP
    1
    2

打印 text 列的前 5 行,查看自由文本字段。