Régression logistique pour le cancer du sein
Dans l’exercice précédent, nous avons réalisé une première évaluation des données. Dans cet exercice, vous allez définir une partition entraînement/test pour un modèle de régression logistique sur un jeu de données relatif au cancer du sein. C’est une première étape essentielle pour exécuter tout modèle de Machine Learning.
Le jeu de données sur le cancer du sein est un échantillon issu de sklearn, contenant diverses caractéristiques de patients, et une variable cible indiquant si le patient a un cancer du sein ou non. Les données sont fournies sous forme de dictionnaire : les principales données sont stockées dans un tableau nommé data, et les valeurs cibles dans un tableau nommé target. Ainsi, cancer_data.data correspond aux variables explicatives et cancer_data.target aux cibles. Les données d’exemple sont chargées sous le nom cancer_data, et pandas est importé en tant que pd. LogisticRegression est disponible via sklearn.linear_model.
Cet exercice fait partie du cours
Prédire le CTR avec le Machine Learning en Python
Instructions
- Définissez
Xetyà partir dedataettarget, respectivement. - Créez
X_trainety_trainavec les 300 premiers échantillons deXety, respectivement, en utilisantX[:300]pourX_train. - Créez
X_testety_testavec le reste deXety(en excluant ces 300 premiers échantillons), en utilisantX[300:]pourX_test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]