Detectando data drift usando o teste de Kolmogorov-Smirnov

Depois de implantar com sucesso seu modelo de previsão de doença cardíaca, você vem monitorando o desempenho e os dados de entrada. Você percebeu que a distribuição de alguns recursos-chave nos dados recentes coletados em fevereiro parece um pouco diferente dos dados usados para treinar em janeiro. Essas discrepâncias podem afetar o desempenho do modelo, então é essencial detectá-las e tratá-las.

Neste exercício, você vai usar o teste de Kolmogorov-Smirnov (K-S) para detectar um possível data drift entre os conjuntos de dados de janeiro e fevereiro. Conjuntos de dados de exemplo chamados january_data e february_data já estão carregados para você.

Este exercício faz parte do curso

Machine Learning de ponta a ponta

Ver curso

Instruções do exercício

Importe a função ks_2samp do módulo scipy.stats.
Use os conjuntos de dados de exemplo january_data e february_data para executar o teste de Kolmogorov-Smirnov; calcule a estatística de teste e o p-value.
Verifique se o p-value é menor que 0,05, indicando data drift; se data drift for detectado, imprima "Data drift detected.", caso contrário, imprima "No data drift detected."

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")

Editar e executar o código