CommencerCommencer gratuitement

Régression logistique pour le cancer du sein

Dans l’exercice précédent, nous avons réalisé une première évaluation des données. Dans cet exercice, vous allez définir une partition entraînement/test pour un modèle de régression logistique sur un jeu de données relatif au cancer du sein. C’est une première étape essentielle pour exécuter tout modèle de Machine Learning.

Le jeu de données sur le cancer du sein est un échantillon issu de sklearn, contenant diverses caractéristiques de patients, et une variable cible indiquant si le patient a un cancer du sein ou non. Les données sont fournies sous forme de dictionnaire : les principales données sont stockées dans un tableau nommé data, et les valeurs cibles dans un tableau nommé target. Ainsi, cancer_data.data correspond aux variables explicatives et cancer_data.target aux cibles. Les données d’exemple sont chargées sous le nom cancer_data, et pandas est importé en tant que pd. LogisticRegression est disponible via sklearn.linear_model.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

  • Définissez X et y à partir de data et target, respectivement.
  • Créez X_train et y_train avec les 300 premiers échantillons de X et y, respectivement, en utilisant X[:300] pour X_train.
  • Créez X_test et y_test avec le reste de X et y (en excluant ces 300 premiers échantillons), en utilisant X[300:] pour X_test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Modifier et exécuter le code