ベースライン

分類器を適切なベースラインと比較して評価することは重要です。特に広告のクリック率のような不均衡データでは、常に多数クラスを選ぶだけで高い accuracy が簡単に出てしまうため、なおさらです。この演習では、常に多数クラス（非クリック）を予測するベースライン分類器をシミュレーションし、その混同行列を確認し、precision と recall がどうなるかを見ていきます。

X_train、y_train、X_test、y_test はワークスペースに用意されています。pandas は pd、numpy は np、sklearn もワークスペースで利用できます。