Test vs. Train
Dopo aver ripulito i dati e averli resi pronti per il modeling, uno dei passaggi più importanti è dividere i dati in un test set e un train set. Da quel momento, non toccare il test set finché non pensi di avere un buon modello! Mentre costruisci i modelli e formuli ipotesi, puoi testarli sul training data per farti un'idea delle loro prestazioni.
Una volta scelto il tuo modello preferito, puoi vedere quanto bene predice i nuovi dati nel test set. Questi dati mai visti prima ti daranno un'idea molto più realistica delle prestazioni del modello nel mondo reale quando cerchi di prevedere o classificare nuovi dati.
In Spark è importante assicurarsi di dividere i dati dopo tutte le trasformazioni. Questo perché operazioni come StringIndexer non producono sempre lo stesso indice anche quando ricevono la stessa lista di stringhe.
Perché è importante usare un test set nella valutazione di un modello?
Questo esercizio fa parte del corso
Fondamenti di PySpark
Esercizio pratico interattivo
Passa dalla teoria alla pratica con uno dei nostri esercizi interattivi
Inizia esercizio