見たデータ vs. 見ていないデータ

モデルは、以前に見た観測に対して精度が高くなる傾向があります。キャンディのデータセットでは、Skittles の人気度を予測するほうが Andes Mints の人気度を予測するより高精度になりやすいでしょう。Skittles はデータセットに含まれますが、Andes Mints は含まれないからです。

あなたは 50 種類のキャンディに基づいて X_train からモデルを構築しました。モデルが学習に使った 50 種類のキャンディに対してどれだけ正確に人気度を予測できるか、そして一度も見たことのない 35 種類（X_test）に対してどれだけ予測できるかを報告する必要があります。評価指標としては平均絶対誤差 mae() を用います。