IniziaInizia gratis

Cross validation

Nei prossimi esercizi ottimizzerai il tuo modello di regressione logistica usando una procedura chiamata k-fold cross validation. È un metodo per stimare le prestazioni del modello su dati mai visti prima (come il tuo DataFrame test).

Funziona dividendo i dati di training in alcune partizioni. Il numero esatto lo scegli tu, ma in questo corso userai il valore predefinito di PySpark, pari a tre. Una volta suddivisi i dati, si mette da parte una delle partizioni e si addestra il modello sulle altre. Poi si misura l'errore sulla partizione lasciata fuori. Si ripete per ciascuna partizione, così ogni blocco di dati viene escluso e usato come test set una sola volta. Infine, si fa la media dell'errore sulle varie partizioni. Questo è chiamato errore di cross validation del modello ed è una buona stima dell'errore effettivo sui dati messi da parte.

Userai la cross validation per scegliere gli iperparametri creando una griglia con tutte le possibili coppie di valori per i due iperparametri, elasticNetParam e regParam, e usando l'errore di cross validation per confrontare i diversi modelli così da scegliere il migliore!

Che cosa ti permette di stimare la cross validation?

Questo esercizio fa parte del corso

Fondamenti di PySpark

Visualizza il corso

Esercizio pratico interattivo

Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi

Inizia esercizio