ComenzarEmpieza gratis

Regresión logística para cáncer de mama

En el ejercicio anterior hicimos una primera evaluación de los datos. En este ejercicio, definirás una partición de entrenamiento y prueba para un modelo de regresión logística sobre un conjunto de datos de cáncer de mama. Este es un primer paso importante para ejecutar cualquier modelo de Machine Learning.

El conjunto de datos de cáncer de mama es un conjunto de ejemplo de sklearn con varias características de pacientes y un valor objetivo que indica si el paciente tiene cáncer de mama o no. Los datos vienen en formato de diccionario, donde los datos principales se almacenan en un array llamado data, y los valores objetivo en un array llamado target. Por tanto, cancer_data.data serán las características y cancer_data.target los objetivos. Los datos de ejemplo se han cargado como cancer_data junto con pandas como pd. LogisticRegression está disponible a través de sklearn.linear_model.

Este ejercicio forma parte del curso

Predicción del CTR con Machine Learning en Python

Ver curso

Instrucciones del ejercicio

  • Define X e y usando data y target, respectivamente.
  • Crea X_train e y_train con las primeras 300 muestras de X e y, respectivamente, usando X[:300] para X_train.
  • Crea X_test e y_test con el resto de X e y, respectivamente (excluyendo esas primeras 300 muestras), usando X[300:] para X_test.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Editar y ejecutar código