学習用/テスト用の分布

Machine Learning の面接では、学習データとテストデータを扱うことがほぼ確実にあります。前に説明したとおり、学習用とテスト用のデータセットで分布が異なると、モデル性能が低下する可能性があります。

この演習では、sklearn.model_selection の関数に加えて、seaborn と matplotlib.pyplot を使い、loan_data を学習用セットとテスト用セットに分割し、分布を可視化して差異がないかを確認します。

seaborn と matplotlib.pyplot はすでにワークスペースにインポート済みで、それぞれ sns と plt という別名が割り当てられています。