Regressão logística para câncer de mama
No exercício anterior, fizemos uma primeira avaliação dos dados. Neste exercício, você vai definir uma divisão de treino e teste para um modelo de regressão logística em um conjunto de dados de câncer de mama. Esse é um primeiro passo importante para executar qualquer modelo de Machine Learning.
O conjunto de dados de câncer de mama é um dataset de amostra do sklearn com várias features de pacientes e um valor-alvo indicando se o paciente tem ou não câncer de mama. Os dados vêm em formato de dicionário, onde os principais dados ficam em um array chamado data, e os valores-alvo ficam em um array chamado target. Assim, cancer_data.data serão as features e cancer_data.target os alvos. Os dados de exemplo estão carregados como cancer_data, e o pandas como pd. LogisticRegression está disponível via sklearn.linear_model.
Este exercício faz parte do curso
Prevendo CTR com Machine Learning em Python
Instruções do exercício
- Defina
Xeyusandodataetarget, respectivamente. - Faça
X_trainey_trainserem as primeiras 300 amostras deXey, respectivamente, usandoX[:300]paraX_train. - Faça
X_testey_testserem o restante deXey, respectivamente (excluindo essas primeiras 300 amostras), usandoX[300:]paraX_test.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define X and y
X = cancer_data.____
y = cancer_data.____
# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____]