ComeçarComece de graça

Técnicas de reamostragem

No último exercício, você viu como o desbalanceamento de classes pode impactar os resultados da sua matriz de confusão. Neste exercício, você vai praticar técnicas de reamostragem para explorar os diferentes resultados que estilos alternativos de reamostragem podem trazer em um conjunto de dados com desbalanceamento de classes, como o loan_data. Usando a função resample() do sklearn, igualar o número de linhas à classe majoritária é chamado de upsampling, enquanto igualar o número de linhas à classe minoritária é chamado de downsampling.

Você vai criar versões com upsampling e com downsampling do conjunto loan_data, aplicar uma regressão logística em ambas e então avaliar o desempenho. Os dados de treino e seus rótulos que correspondem a deny foram filtrados para conter apenas a classe minoritária e os que correspondem a approve, a classe majoritária.

Um objeto de teste do split de treino/teste para fazer previsões foi salvo no workspace como X_test para você usar nos exercícios.

Este exercício faz parte do curso

Praticando perguntas de entrevista de Machine Learning em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Upsample minority and combine with majority
loans_upsampled = ____(deny, replace=True, n_samples=len(____), random_state=123)
upsampled = pd.concat([approve, loans_upsampled])

# Downsample majority and combine with minority
loans_downsampled = ____(____, replace = False,  n_samples = len(deny), random_state = 123)
downsampled = pd.concat([loans_downsampled, deny])
Editar e executar o código