Detectando data drift usando o teste de Kolmogorov-Smirnov
Depois de implantar com sucesso seu modelo de previsão de doença cardíaca, você vem monitorando o desempenho e os dados de entrada. Você percebeu que a distribuição de alguns recursos-chave nos dados recentes coletados em fevereiro parece um pouco diferente dos dados usados para treinar em janeiro. Essas discrepâncias podem afetar o desempenho do modelo, então é essencial detectá-las e tratá-las.
Neste exercício, você vai usar o teste de Kolmogorov-Smirnov (K-S) para detectar um possível data drift entre os conjuntos de dados de janeiro e fevereiro. Conjuntos de dados de exemplo chamados january_data e february_data já estão carregados para você.
Este exercício faz parte do curso
Machine Learning de ponta a ponta
Instruções do exercício
- Importe a função
ks_2sampdo móduloscipy.stats. - Use os conjuntos de dados de exemplo
january_dataefebruary_datapara executar o teste de Kolmogorov-Smirnov; calcule a estatística de teste e o p-value. - Verifique se o p-value é menor que 0,05, indicando data drift; se data drift for detectado, imprima
"Data drift detected.", caso contrário, imprima"No data drift detected."
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")