1. 学ぶ
  2. /
  3. コース
  4. /
  5. PythonでMachine Learningを使ってCTRを予測する

Connected

演習

乳がん予測のロジスティック回帰

前の演習では、データの初期評価を行いました。今回は、乳がんデータセットに対してロジスティック回帰モデル用の学習データとテストデータの分割を定義します。これはあらゆるMachine Learningモデルを実行するうえでの重要な第一歩です。

乳がんデータセットは sklearn に含まれるサンプルで、患者のさまざまな特徴量と、乳がんの有無を示す目的変数が含まれます。データはディクショナリ形式で提供され、主な特徴量は data という配列、目的変数は target という配列に格納されています。つまり、cancer_data.data が特徴量、cancer_data.target が目的変数です。サンプルデータは cancer_data として読み込まれており、pandas は pd として利用できます。LogisticRegression は sklearn.linear_model から利用可能です。

指示

100 XP
  • それぞれ data と target を使って、X と y を定義してください。
  • X_train と y_train は、それぞれ X と y の最初の300件にします。X_train は X[:300] を使います。
  • X_test と y_test は、それぞれ X と y の残り(最初の300件を除いた部分)にします。X_test は X[300:] を使います。