ComeçarComece de graça

Regressão logística para câncer de mama

No exercício anterior, fizemos uma primeira avaliação dos dados. Neste exercício, você vai definir uma divisão de treino e teste para um modelo de regressão logística em um conjunto de dados de câncer de mama. Esse é um primeiro passo importante para executar qualquer modelo de Machine Learning.

O conjunto de dados de câncer de mama é um dataset de amostra do sklearn com várias features de pacientes e um valor-alvo indicando se o paciente tem ou não câncer de mama. Os dados vêm em formato de dicionário, onde os principais dados ficam em um array chamado data, e os valores-alvo ficam em um array chamado target. Assim, cancer_data.data serão as features e cancer_data.target os alvos. Os dados de exemplo estão carregados como cancer_data, e o pandas como pd. LogisticRegression está disponível via sklearn.linear_model.

Este exercício faz parte do curso

Prevendo CTR com Machine Learning em Python

Ver curso

Instruções do exercício

  • Defina X e y usando data e target, respectivamente.
  • Faça X_train e y_train serem as primeiras 300 amostras de X e y, respectivamente, usando X[:300] para X_train.
  • Faça X_test e y_test serem o restante de X e y, respectivamente (excluindo essas primeiras 300 amostras), usando X[300:] para X_test.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define X and y 
X = cancer_data.____
y = cancer_data.____

# Define training and testing data
X_train = X[____]
X_test = X[____]
y_train = y[____]
y_test = y[____] 
Editar e executar o código