1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

文字列の合計と数値の連結

前の演習では、user_type にとって適切なデータ型が category であることを特定し、user_type の分布を把握するための統計要約を抽出できるように変換しました。

もう1つよくあるデータ型の問題は、本来は数値であるべき値が文字列として読み込まれてしまうことです。この場合、合計や乗算といった数値演算を行っても、数値の結果ではなく文字列の連結になってしまいます。

この演習では、文字列の列 duration を int 型に変換します。その前に、pandas が数値として解釈できるよう、列から "minutes" を取り除く必要があります。pandas パッケージは pd としてインポート済みです。

指示

100 XP
  • .strip() メソッドを使って、duration から "minutes" を取り除き、duration_trim 列に保存します。
  • duration_trim を int に変換し、duration_time 列に保存します。
  • duration_time のデータ型が int になっているかを確認する assert 文を書きます。
  • 乗車時間の平均を出力します。