1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rでのデータクリーニング

Connected

演習

不一致の修正

dest_size に空白の不一致があり、cleanliness に大文字・小文字の不一致があることを特定しました。ここでは、新しく学んだツールを使って、sfo_survey 内の不一致な値を修正します。データ点を丸ごと削除してしまうと、5%以上を削除する必要がある場合にデータセットへ偏りを生む可能性があるためです。

dplyr と stringr は読み込まれており、sfo_survey が利用可能です。

指示

100 XP
  • sfo_survey に dest_size_trimmed という列を追加し、dest_size 列の値から先頭・末尾の空白をすべて取り除いた値を入れてください。
  • さらに cleanliness_lower という列を追加し、cleanliness 列の値をすべて小文字に変換したものを入れてください。
  • dest_size_trimmed の各カテゴリの出現回数を数えてください。
  • cleanliness_lower の各カテゴリの出現回数を数えてください。