Rilevare il data drift con il test di Kolmogorov-Smirnov

Dopo aver distribuito con successo il tuo modello di previsione delle malattie cardiache, stai monitorando le sue prestazioni e i dati in input. Hai notato che la distribuzione di alcune feature chiave nei dati recenti raccolti a febbraio sembra un po’ diversa rispetto ai dati su cui hai eseguito il training a gennaio. Queste discrepanze possono influenzare le prestazioni del modello, quindi è fondamentale rilevarle e gestirle.

In questo esercizio userai il test di Kolmogorov-Smirnov (K-S) per individuare un eventuale data drift tra i dataset di gennaio e febbraio. I dataset di esempio january_data e february_data sono già stati caricati per te.

Questo esercizio fa parte del corso

Machine Learning end-to-end

Visualizza corso

Istruzioni dell'esercizio

Importa la funzione ks_2samp dal modulo scipy.stats.
Usa i dataset di esempio forniti, january_data e february_data, per eseguire il test di Kolmogorov-Smirnov; calcola la statistica del test e il p-value.
Verifica se il p-value è inferiore a 0.05, il che indica data drift; se viene rilevato data drift, stampa "Data drift detected.", altrimenti stampa "No data drift detected."

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the ks_2samp function
from ____.____ import ____

# Calculate the test statistic and p value
test_statistic, p_value = ____(____, ____)

# Check the p-value and print the detection result
if ____:
	print("Data drift detected.")
else:
	print("No data drift detected.")

Modifica ed esegui il codice