1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

演習

しきい値(カットオフ)を決める

この演習では、この章を通して使用するレストラン情報の restaurants DataFrame を扱います。最終目標はレストランのレコメンドエンジンを作ることですが、その前にデータをきれいにする必要があります。

このバージョンの restaurants は複数の情報源から収集されており、cuisine_type 列には多数のタイプミスが含まれています。本来は italian、american、asian の3種類のみであるべきです。ユニークなカテゴリが非常に多いため、手作業でリマップするのは現実的ではありません。そこで文字列の類似度を使うのが最適です。

その前段として、各カテゴリでもっとも「離れた」タイプミスの類似度スコアを把握し、thefuzz の process.extract() 関数を用いて、類似度スコアのカットオフ値を決めていきます。

指示1 / 2

undefined XP
    1
    2
  • thefuzz から process をインポートします。
  • ユニークな cuisine_type を unique_types に保存します。
  • process.extract() を使って、'asian'、'american'、'italian' のそれぞれについて、すべての cuisine_type に対する類似度を計算し、可能な一致をすべて返します。