Rilevare il data drift con il test di Kolmogorov-Smirnov
Dopo aver distribuito con successo il tuo modello di previsione delle malattie cardiache, stai monitorando le sue prestazioni e i dati in input. Hai notato che la distribuzione di alcune feature chiave nei dati recenti raccolti a febbraio sembra un po’ diversa rispetto ai dati su cui hai eseguito il training a gennaio. Queste discrepanze possono influenzare le prestazioni del modello, quindi è fondamentale rilevarle e gestirle.
In questo esercizio userai il test di Kolmogorov-Smirnov (K-S) per individuare un eventuale data drift tra i dataset di gennaio e febbraio. I dataset di esempio january_data e february_data sono già stati caricati per te.
Questo esercizio fa parte del corso
Machine Learning end-to-end
Istruzioni dell'esercizio
- Importa la funzione
ks_2sampdal moduloscipy.stats. - Usa i dataset di esempio forniti,
january_dataefebruary_data, per eseguire il test di Kolmogorov-Smirnov; calcola la statistica del test e il p-value. - Verifica se il p-value è inferiore a 0.05, il che indica data drift; se viene rilevato data drift, stampa
"Data drift detected.", altrimenti stampa"No data drift detected."
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the ks_2samp function
from ____.____ import ____
# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)
# Check the p-value and print the detection result
if ____:
print("Data drift detected.")
else:
print("No data drift detected.")