しきい値（カットオフ）を決める

この演習では、この章を通して使用するレストラン情報の restaurants DataFrame を扱います。最終目標はレストランのレコメンドエンジンを作ることですが、その前にデータをきれいにする必要があります。

このバージョンの restaurants は複数の情報源から収集されており、cuisine_type 列には多数のタイプミスが含まれています。本来は italian、american、asian の3種類のみであるべきです。ユニークなカテゴリが非常に多いため、手作業でリマップするのは現実的ではありません。そこで文字列の類似度を使うのが最適です。

その前段として、各カテゴリでもっとも「離れた」タイプミスの類似度スコアを把握し、thefuzz の process.extract() 関数を用いて、類似度スコアのカットオフ値を決めていきます。