1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶデータクリーニング

Connected

연습 문제

カテゴリの再マッピング II

前の演習では、cuisine_type 列に保存された 'american'、'asian'、'italian' のタイプミスを再マッピングするための距離のしきい値は 80 が適切だと判断しました。

この演習では、fuzzywuzzy.process の extract() 関数を使って、各正しい料理カテゴリごとに類似度スコアが 80 以上の一致を見つけ、それらを正しいカテゴリに置き換える処理をまとめて実装します。文字列と文字列配列を process.extract() で比較すると、出力は次の形式のタプルのリストになる点を思い出してください。

(最も近い一致, 類似度スコア, 一致のインデックス)

環境には restaurants DataFrame が用意されており、正しい料理カテゴリ('italian'、'asian'、'american')を含む categories リストにもアクセスできます。

지침 1/4

undefined XP
    1
    2
    3
    4
  • restaurants の cuisine_type 列に含まれる一意の値をすべて返してください。