1. Learn
  2. /
  3. 课程
  4. /
  5. R 中的数据清洗

Connected

道练习

修剪字符串

在上一个练习中,您已经能够识别正确的数据类型,并将 user_birth_year 转换为正确的类型,从而提取出能帮助您更深入了解数据集的计数。

另一个常见的脏数据问题是数字中包含百分号或句点等多余符号,导致它们被读取为 character。为了能对这些数字进行计算,需要先去除多余符号,并将类型从 character 转换为 numeric。在本练习中,您需要将 duration 列从 character 转换为 numeric。但在此之前,必须先从每个取值中移除单词 "minutes"。

已加载 dplyr、assertive 和 stringr,并且 bike_share_rides 可用。

说明

100 XP
  • 使用 str_remove() 从 bike_share_rides 的 duration 列中移除 "minutes"。将结果添加为名为 duration_trimmed 的新列。
  • 将 duration_trimmed 列转换为数值类型,并将其添加为名为 duration_mins 的新列。
  • 浏览 bike_share_rides 的结构,并断言 duration_mins 列为 numeric。
  • 计算 duration_mins 的平均值。