1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rでのデータクリーニング

Connected

演習

文字列のトリミング

前の演習では、正しいデータ型を見極めて user_birth_year を適切な型に変換し、データセットへの理解を少し深める集計を得ることができました。

もう一つよくある汚れたデータの問題として、数値にパーセント記号やピリオドなどの余計な文字が混ざり、character として読み込まれてしまうことがあります。これらの数値を計算に使えるようにするには、余計な文字を取り除き、character から numeric に変換する必要があります。この演習では、duration 列を character から numeric に変換しますが、その前に各値から "minutes" という語を取り除く必要があります。

dplyr、assertive、stringr は読み込まれており、bike_share_rides が利用可能です。

指示

100 XP
  • str_remove() を使って、bike_share_rides の duration 列から "minutes" を削除し、duration_trimmed という新しい列として追加します。
  • duration_trimmed 列を数値型に変換し、duration_mins という新しい列として追加します。
  • bike_share_rides を glimpse() で確認し、duration_mins 列が numeric であることをアサートします。
  • duration_mins の平均を計算します。