乳がん予測のロジスティック回帰

前の演習では、データの初期評価を行いました。今回は、乳がんデータセットに対してロジスティック回帰モデル用の学習データとテストデータの分割を定義します。これはあらゆるMachine Learningモデルを実行するうえでの重要な第一歩です。

乳がんデータセットは sklearn に含まれるサンプルで、患者のさまざまな特徴量と、乳がんの有無を示す目的変数が含まれます。データはディクショナリ形式で提供され、主な特徴量は data という配列、目的変数は target という配列に格納されています。つまり、cancer_data.data が特徴量、cancer_data.target が目的変数です。サンプルデータは cancer_data として読み込まれており、pandas は pd として利用できます。LogisticRegression は sklearn.linear_model から利用可能です。