Regresión logística para cáncer de mama
En el ejercicio anterior hicimos una primera evaluación de los datos. En este ejercicio, definirás una partición de entrenamiento y prueba para un modelo de regresión logística sobre un conjunto de datos de cáncer de mama. Este es un primer paso importante para ejecutar cualquier modelo de Machine Learning.
El conjunto de datos de cáncer de mama es un conjunto de ejemplo de sklearn con varias características de pacientes y un valor objetivo que indica si el paciente tiene cáncer de mama o no. Los datos vienen en formato de diccionario, donde los datos principales se almacenan en un array llamado data, y los valores objetivo en un array llamado target. Por tanto, cancer_data.data serán las características y cancer_data.target los objetivos. Los datos de ejemplo se han cargado como cancer_data junto con pandas como pd. LogisticRegression está disponible a través de sklearn.linear_model.
Este ejercicio forma parte del curso
Predicción del CTR con Machine Learning en Python
Instrucciones del ejercicio
- Define
Xeyusandodataytarget, respectivamente. - Crea
X_trainey_traincon las primeras 300 muestras deXey, respectivamente, usandoX[:300]paraX_train. - Crea
X_testey_testcon el resto deXey, respectivamente (excluyendo esas primeras 300 muestras), usandoX[300:]paraX_test.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]